Ne hanno parlato il Presidente Mattarella nel discorso di fine anno e papa Francesco in occasione della Giornata mondale della pace. Sul piano della regolamentazione abbiamo visto la recente approvazione del Regolamento Europeo sull’Intelligenza Artificiale. Nella politica interna, in continuità, il Disegno di Legge del Governo e la Strategia Nazionale 2024-2026 per l’AI divulgata dall’AGID. Con un trend di interesse regolarmente crescente negli ultimi anni, l’Intelligenza Artificiale (AI) sembra insomma aver battezzato il 2024 come il suo anno. Arriviamo tuttavia da un lungo periodo durante il quale è stato difficile – e in parte lo è ancora – trovare un accordo anche nella semplice definizione di cosa sia Intelligenza Artificiale. Già nel 2022 l’Autorità spagnola per la Protezione dei Dati ricordava che “Intelligenza artificiale” è un termine generico riferito a diverse tecnologie. E spesso vengono promossi sistemi “basati su AI” senza specificare il tipo di AI utilizzato. Scopriamo allora qualcosa in più su una delle declinazioni più note, l’apprendimento automatico o Machine Learning, cogliendo l’occasione per sfatare qualche mito che si oppone alla tutela della privacy.
Indice
Cos’è il Machine Learning?
Il Considerando 12 dell’AI Act indica tra le caratteristiche fondamentali dei sistemi basati su Intelligenza Artificiale, la loro capacità di ottenere output, previsioni, raccomandazioni o decisioni, che possono influenzare gli ambienti fisici e virtuali, nonché la capacità di ricavare modelli o algoritmi da input o dati. Il Machine Learning è precisamente una delle tecniche che consentono questo processo. L’approccio del Machine Learning si applica tipicamente a problemi specifici (es. “Quali film del catalogo si avvicinano ai gusti dell’utente?”) con lo scopo di individuare pattern di correlazione tra le variabili di un set di dati. L’obiettivo è utilizzare quelle correlazioni per perfezionare algoritmi capaci di dare risposta al problema originale. Una volta addestrati, questi “modelli” consentono di prendere decisioni in maniera automatica o con il minimo intervento umano.
Il Machine Learning funziona meglio se addestrato con dataset più grandi?
In genere, l’addestramento dei sistemi di ML richiede tanti più dati quanto più complesso è il compito che dovrà risolvere il modello. Nell’era dei Big Data, questo elemento si è tradotto nell’idea che avere più dati è sempre meglio. Ciò si scontra, nel caso di raccolta di dati personali, col principio di minimizzazione previsto dal GDPR. Si tende tuttavia a trascurare che l’aggiunta di dati a un sistema basato sul Machine Learning a volte può creare problemi o peggiorarne il funzionamento. Ad esempio, aggiungendo più immagini maschili che femminili in un sistema di riconoscimento facciale, si potrebbero manifestare o peggiorare pregiudizi di genere da parte del modello. Pertanto, l’acquisizione e l’aggiunta di dati in un dataset di addestramento per un sistema di Machine Learning dovrebbe essere sempre proporzionato alle finalità e alle obiettive possibilità di migliorare in maniera sostanziale e rilevante il funzionamento di un sistema.
I dataset di addestramento del Machine Learning devono essere privi di errori?
La domanda è chiaramente connessa all’esigenza di garantire l’integrità dei dati, non sempre facile da monitorare nella gestione di elevate quantità di dati. Tra le caratteristiche dei Big Data, c’è infatti anche la possibilità di disporre di set di dati di elevata varietà. Dati complessi, talvolta inconsistenti o disordinati, a volte proprio errati. In termini di applicazione statistica, si tende a ritenere che l’elevato volume di dati analizzati dai sistemi di Machine Learning renda la presenza di errori trascurabile, per il corretto funzionamento del modello. In una certa misura, l’imprecisione del singolo dato può essere superata dalla qualità complessiva. Nonostante ciò, resta un fatto che i sistemi di Machine Learning, per funzionare correttamente, devono essere addestrati con dati completi, accurati, che rispondono a elevati criteri qualitativi.
I sistemi basati sul ML continuano a migliorare nel tempo?
Al termine della fase originale di addestramento, il solo utilizzo di un sistema basato sull’apprendimento automatico non implica necessariamente che utilizzi i nuovi dati per analizzare ed esaminare nuove correlazioni. Le prestazioni del modello di Machine Learning si evolveranno solo se ricevono un addestramento costante. In mancanza di addestramento, il funzionamento potrebbe peggiorare, laddove il modello precedentemente considerato maturo, non fosse invece più adatto a rappresentare il contesto e la realtà in cui è utilizzato (obsolescenza). Da qui, la necessità di mantenere regolarmente monitorati i modelli, eventualmente addestrandoli con dati sempre aggiornati. E il conseguente obbligo di istituire e adottare idonei sistemi di acquisizione e gestione dati, capaci di garantirne la costante protezione.
Le decisioni prese dai sistemi di Machine Learning sono impossibili da spiegare?
Parliamo di trasparenza. Se un modello di Machine Learning deve trattare dati personali, facilmente bisognerà fare i conti con l’obbligo di fornire informazioni significative sulla logica che utilizza e sulle sue conseguenza. Frequentemente, tuttavia, sembra dominare l’idea che le decisioni prodotte dai sistemi di AI non possano essere spiegate, in quanto non sempre comprensibili. Al contrario, sarebbe buona prassi adottare un approccio molto pragmatico: si può decidere di chiarire le modalità di generazione del modello, fare riferimento ai parametri considerati, oppure indicare in che maniera i dati in input influenzano il risultato. Sono solo alcuni esempi che suggeriscono che il livello di dettaglio delle informazioni fornite andrebbe sempre valutato e adattato al contesto.
È possibile essere trasparenti sul funzionamento del ML senza compromettere la proprietà intellettuale?
Raggiungere un sufficiente livello di trasparenza verso gli utenti non significa necessariamente esporsi a rischi di violazioni della proprietà intellettuale. Perfettamente in linea con la considerazione precedente (e pur esistendo contesti di utilizzo di modelli basati sulla c.d. “glass box”, che al contrario della black box presenta logiche di funzionamento aperte e accessibili a tutti), il requisito di trasparenza da rispettare nei confronti delle persone, tipicamente non necessita di divulgare aspetti tecnici dettagliati. Un esempio ideale di riferimento potrebbe avvicinarsi ai foglietti illustrativi dei farmaci. Non raccontano dinamiche chimiche o meccanismi d’azione dei principi attivi, ma riportano elementi utili per la consapevolezza dei pazienti, in relazione all’impatto che l’utilizzo del prodotto avrà sulla vita quotidiana.