di Marco Salucci

Definita come «uno dei più grandi balzi tecnologici della storia dell’umanità», l’Intelligenza Artificiale apre a inedite possibilità e, al contempo, a non pochi interrogativi, dovuti all’opacità relativa alle nuove frontiere su cui si affaccia la ricerca in questo campo; opacità dovuta, forse e almeno in parte, al fatto che la comprensione profonda del funzionamento e delle potenzialità dell’IA sfugge persino ai suoi stessi ideatori.

 

A conclusione del primo vertice mondiale sulla sicurezza informatica tenutosi a Bletchley Park – lo stesso luogo in cui A. Turing decifrò Enigma – è stata pubblicata una Dichiarazione1 nella quale si può leggere che con i recenti sviluppi dell’intelligenza artificiale2 «(…) stiamo assistendo a uno dei più grandi balzi tecnologici nella storia dell’umanità» e che «è evidente l’imperativo di garantire che questa tecnologia in rapida evoluzione rimanga sicura e protetta». Il documento preparatorio al summit riporta numerosi esempi per illustrare le opportunità offerte dall’IA3 che vanno, tra l’altro, dal conversare in modo fluente e prolungato allo scrivere sequenze di codice, dal generare articoli di cronaca al combinare idee in modo creativo, dal tradurre tra più lingue a governare i robot. Lo stesso documento segnala poi come rischio il fatto che «(…) queste capacità non sono pienamente comprese [s.n.] e sono quindi difficili da prevedere», con ciò evocando un tema che nel dibattito corrente non richiama l’attenzione che si meriterebbe, poiché presenta qualche aspetto tecnico, ma che sta all’origine dei rischi più insidiosi perché meno prevedibili e governabili: quelli connessi all’opacità. Y. Le Cun, fra i padri dell’apprendimento automatico, ha dichiarato che tale tecnologia è la «materia oscura» dell’IA. L’IA sembra sferrare un ulteriore colpo alle umiliazioni di cui parlava Freud inferte dalla scienza all’uomo con l’aver dissolto le illusioni di essere una creatura speciale. Una ragione di natura non meramente tecnica per interessarsi agli sviluppi dell’IA è che costruirne una dovrebbe anche permetterci di capire che cos’è l’intelligenza naturale, questione in fondo alla quale ne troviamo un’altra: cosa ci caratterizza e ci distingue dal non-umano?
A proposito di un suo collega, A. Einstein ha detto una volta che «calcola ma non pensa»4. Le capacità citate nella Dichiarazione di Bletchley ci costringono a ripensare al significato dell’intelligenza naturale e alla praticabilità di quella che J. McCarthy chiamava obiezione sleale: «(…) ogni volta che l’IA funziona non la chiamate più intelligenza». Ma se non vogliamo essere sleali gli sviluppi recentissimi dell’IA sembrano ancora una volta confermare, almeno, che intelligenza e comprensione – per non parlare della coscienza – vanno5 distinte.

 

Quando i ricercatori iniziarono a sostituire le teorie con i dati
L’IA classica ha cercato di riprodurre alcune capacità cognitive umane prevalentemente guidata dall’idea che pensare sia calcolare e quindi che non si possa prescindere dal seguire inferenze logiche a partire da conoscenze esplicite. Così l’IA classica ha cercato di realizzare in un meccanismo fisico le regole del calcolo logico6. Questo approccio ha permesso di conseguire grandi risultati, tuttavia ha mostrato anche dei limiti: ci sono cose che l’IA classica non riesce a fare che invece gli esseri umani fanno con facilità come riconoscere e classificare forme. Viceversa le attività in cui l’IA classica eccelle, come il calcolare, risultano difficili per gli esseri umani. Il problema dell’IA che usa regole esplicite è che le regole non sono mai sufficienti per coprire tutti i casi possibili e occorre introdurne sempre nuove. Lavorando nel campo della traduzione automatica V. Vapnik e F. Jelinek cominciarono dunque a pensare di usare regolarità statistiche invece della grammatica e di regole esplicite: «(…) è più facile predire la parola che segue un’altra piuttosto che comprenderne il significato». Una rete può esaminare un insieme di dati ed estrarre le frequenze con cui alcune parole si trovano associate ad altre, alcune associazioni saranno molto frequenti («dolce» e «zucchero»), altre meno frequenti («amaro» e «zucchero»). Con un’esplicita rinuncia alla comprensione e alle regole i ricercatori cominciarono a sostituire le teorie con i dati. Questo modello dapprima applicato alla traduzione automatica delle lingue è poi stato generalizzato a tutta l’IA che utilizza previsioni su base statistica laddove non è conveniente, non esiste o non è possibile elaborare una teoria. Nessuna comprensione del fenomeno a cui l’IA venga applicata è richiesta da parte umana.
Le opportunità offerte dall’IA sono molte e promettenti, le tecniche di machine learning vengono utilizzate con successo, per fare un esempio, nella progettazione di nuove molecole7 con evidenti applicazioni in medicina, in biologia, in bioingegneria. Ma dobbiamo conoscere i rischi perché le opportunità prevalgano e i rischi sono in gran parte riassumibili nella domanda: possiamo fidarci di qualcosa che non conosciamo bene? Si tratta di rischi diversi da quelli (sui quali, appunto, è quasi esclusivamente concentrato il dibattito corrente) che possono derivare da una gestione dell’IA non vantaggiosa o perfino dannosa perché sono rischi connessi alla possibilità che l’IA sfugga al gestore o riesca perfino ad auto organizzarsi in modi pericolosi8.

Come funzionano le reti neurali
Il recente progresso in IA è dovuto al fatto che l’originaria intuizione di V. Vapnik ha potuto avvantaggiarsi dell’enorme quantità di dati che gli utenti hanno per anni, più o meno consapevolmente, riversato nei server delle compagnie proprietarie delle reti sociali e dei motori di ricerca. Per effettuare previsioni attendibili sono infatti necessarie grandi quantità di dati. Le reti neurali funzionano con una combinazione di metodi logici e statistici ma mentre i primi sono caratteristici dell’IA classica, le reti fanno uso massiccio dei secondi. I successi dell’IA che tanto clamore stanno suscitando non dipendono dalla scoperta di una nuova tecnologia9 ma dal fatto che solo da pochi anni è stato possibile sfruttare non solo l’aumentata velocità di calcolo dell’hardware ma soprattutto i grandi insiemi di dati di natura non più solo linguistica.
Nel 2009 un gruppo di ricercatori di Google pubblicò L’irragionevole efficacia dei dati, un documento in cui si dichiarava l’inutilità di elaborare teorie essendo sufficiente la disponibilità dei dati: il motto della nuova IA è «la vita comincia a un miliardo di esempi». Una tappa esemplare del cammino verso l’IA basata sulle reti è stato il programma Amabot (un agente di raccomandazione) di Amazon che sostituì gli impiegati umani nel compilare le pagine del sito con i suggerimenti personalizzati per gli acquisti. Amabot non conteneva regole esplicite e tantomeno comprendeva i contenuti con cui aveva a che fare ma era in grado di estrarre relazioni statistiche dai dati che gli utenti rilasciavano con la frequentazione del sito.
L’intuizione originaria che sta alla base della tecnologia delle reti neurali rovescia quella dell’IA classica perché non cerca più di simulare le capacità del cervello ma il cervello stesso, una volta fatto questo, si ritiene, le capacità desiderate emergeranno da sole. Progredendo attraverso tappe come la traduzione automatica, Deep Mind, AlphaGo, Amabot ecc. fino alle chatbot, sembra che le reti conseguano risultati paragonabili a quelli ottenuti dagli umani: ma perché e come questo avvenga non è chiaro e il motivo risulta evidente se consideriamo il modo in cui funzionano. La proprietà delle reti neurali di apprendere dall’esperienza e di rispondere in modo adeguato agli stimoli senza che siano state programmate è la caratteristica più interessante che le differenzia dall’IA classica. Le reti sono costituite da un insieme di unità connesse e distribuite in almeno tre strati: quelle dello strato d’ingresso ricevono i segnali in entrata e a loro volta emettono, o non emettono, segnali che dipendono dal loro valore proprio e da quello delle connessioni alle altre unità. Le reti vengono sottoposte a cicli di addestramento e i valori, inizialmente assegnati in modo casuale, vengono modificati per ridurre lo scarto fra le risposte fornite e quelle desiderate. A tale scopo le reti vengono dotate di algoritmi che modificano i valori inibendo le configurazioni che hanno fallito e consolidando quelle che hanno avuto più successo nell’avvicinarsi all’output desiderato. Dopo un adeguato numero di «esperienze» si sarà spontaneamente selezionata quella configurazione che ha prodotto il più alto numero di successi.

Come nel racconto di Primo Levi
Il modo in cui le reti funzionano le rende preziose perché, a differenza dell’IA classica, sono efficienti nei compiti che gli esseri umani non riescono a descrivere con regole esplicite. L’importanza, e l’origine delle preoccupazioni, di questa tecnologia sta nella sua capacità di predire osservazioni future senza necessità di impiegare regole o teorie. Il processo avviene in modo automatico per «selezione naturale». L’opacità10, o la «materia oscura», deriva sia dal fatto che i valori delle unità e delle connessioni non corrispondono a nessun concetto umano sia dal fatto che la selezione delle risposte corrette è statistica, in una parola casuale. Un paragone con la biologia può essere esplicativo. La velocità di calcolo e la grande disponibilità di dati svolgono nelle reti la funzione che nell’evoluzione naturale è svolta dal tempo e dalle mutazioni. La selezione naturale, dice Darwin in un celebre passo dell’Origine delle specie in cui confronta l’occhio con il cannocchiale, può fare senza intelligenza ciò che può fare l’intelligenza: poniamo che il processo di mutazione di un primordiale tessuto fotosensibile interessi ogni anno milioni e milioni di individui, e che duri per milioni e milioni di anni: perché in questo modo non potrebbe formarsi un sistema ottico vivente perfino superiore a quelli artificiali?11 È evidente che processi del genere escludono intelligenza e comprensione e dunque che parlare di intelligenza a proposito delle reti è in gran parte metaforico. L’opacità del funzionamento delle reti è un problema già quando le reti funzionano bene ma possono anche non funzionare. Un luogo comune nel dibattito sull’IA è che le informazioni sarebbero contenute nei dati. Ma i dati non hanno significato di per sé, devono essere interpretati e le interpretazioni possono essere tanto fallaci quanto spurie le correlazioni fra dati12.
Come nel racconto di P. Levi La misura della bellezza, in cui il fantastico calometro «(…) ravvisa un volto umano anche nelle sue imitazioni più grossolane e casuali», l’IA vede le forme che dovrebbe vedere dove invece non dovrebbe o non le vede dove invece dovrebbe13. Alcuni dei principali problemi delle reti con cui hanno quotidianamente a che fare i supervisori umani sono quelli del «sovradattamento» (overfitting), degli «esempi avversari» (adversarial examples14, particolarmente prono alla pirateria informatica – adversarial attacks) e della «coda lunga» (long tail phenomenon). Quest’ultimo non è altro che la versione statistica del classico problema dell’induzione: quanto una regolarità statistica scoperta in un certo insieme di dati sarà presente anche nel successivo?
Poiché non si può prevedere ogni possibile evento futuro sulla base di quelli già osservati, nessun sistema può essere addestrato per affrontare ogni caso possibile. Ovviamente questo vale anche per le previsioni effettuate dagli esseri umani. Anzi, in alcuni compiti le reti danno prestazioni migliori e il tasso di errore può essere ridotto fino al 5%. Tuttavia la gravità delle conseguenze di un errore non dovrebbe essere valutata dal tasso di errore ma dai compiti che vengono affidati alle reti.
Quando gli esseri umani devono prendere decisioni in contesti di incertezza o sulla base di dati statistici non sono in particolare vantaggio rispetto alle reti, tuttavia resta il fatto che contrariamente all’IA gli esseri umani sono in grado di capire, per es., se una correlazione fra insiemi di dati è autentica o spuria. Questo perché gli esseri umani sanno quali sono gli aspetti pertinenti e rilevanti di un dato e tengono conto del contesto in cui si manifesta. In molti contesti di incertezza gli esseri umani possono prendere decisioni migliori delle reti accorgendosi che il mero calcolo statistico condurrebbe a un’azione indesiderabile, magari per motivi etici. Negli esseri umani la razionalità è incarnata in una determinata costituzione fisica, si accompagna all’emotività, è collocata in una rete di relazioni sociali e ambientali, è sostenuta da una conoscenza generale15 del mondo che, peraltro, è anche depositata e disponibile nel senso comune.
L’opacità dell’IA è il lato oscuro di quella sua stessa proprietà che le consente di imparare dall’esperienza e che ci risulta utile per affrontare fenomeni per i quali non disponiamo di una teoria: ma l’IA stessa è un fenomeno del genere16. Già i progettisti di AlphaGo si resero conto che quello che possono fare gli algoritmi non era «più dipendente dai limiti delle conoscenze umane». La mancanza di una teoria che ci permetta di padroneggiare i miliardi di valori e parametri con cui le reti si organizzano non è però per alcuni autori un caso eccezionale, né definitivo né preoccupante. Y. Le Cun ricorda che anche il funzionamento delle macchine a vapore costruite nella prima rivoluzione industriale fu pienamente compreso solo successivamente con la termodinamica e la meccanica statistica.
E gli esempi in cui la storia della tecnologia ha preceduto quella della scienza si potrebbero moltiplicare. Se anche questo è il caso dell’IA è presto per dirlo ma comunque è vero che la storia della scienza non dipende solo dalla disponibilità di regole esplicite (ed è precisamente di esse che l’IA fa a meno). In ogni caso la questione dell’opacità dell’IA pone un’interessante questione sul significato stesso del conoscere e per alcuni autori17 segna persino l’inizio della fine del metodo scientifico (ma quale?).

 

1 The Bletchley Declaration by Countries Attending the Ai Safety Summit, 1-2 Novembre 2023 https://www.gov.uk/government/publications/ai-safety-summit-2023-the-bletchley-declaration/the-bletchley-declaration-by-countries-attending-the-ai-safety-summit-1-2-november-2023.
2 Abbrevierò con «IA» con riferimento all’Intelligenza artificiale subsimbolica a reti neurali e tecnologie connesse. Quando sia necessario un riferimento all’intelligenza artificiale classica o simbolica la nominerò per esteso.
3 Capabilities and risks from frontier AI. A discussion paper on the need for further research into AI risk https://assets.publishing.service.gov.uk/media/65395abae6c968000daa9b25/frontier-ai-capabilities-risks-report.pdf.
4 Così A. Pais nella sua biografia di Einstein, Sottile è il Signore.
5 Cfr. la rappresentazione delle regole della logica di Boole nei circuiti elettrici ideata da C. Shannon nel 1938.
6 Cfr. la rappresentazione delle regole della logica di Boole nei circuii elettrici ideata da C. Shannon nel 1938.
7 Cfr. Il progetto Rosetta Fold, J. L. Watson et al., De novo design of protein structure and function with RFdiffusion, in «Nature», n. 620, 11 luglio 2023, pp. 1089-1100.
8 Sono molto citati gli scenari fantascientifici evocati da Y. Harari e da N. Bostrom il quale immagina un’IA che persegue gli scopi produttivi assegnati attingendo la materia prima dai corpi degli esseri umani. Già N. Wiener aveva utilizzato il racconto horror La zampa di scimmia di W. W. Jacobs a scopi simili. Ogni nuova tecnologia ha sempre avuto i suoi profeti dell’apocalisse. Nel caso dell’IA oltre al timore della novità esiste un timore non giustificato che si origina da una forma di perturbante freudiano nei confronti di automi che hanno perso la componente della familiarità con la dematerializzazione.
9 Cfr. le ricerche di W. McCulloch e W. Pitts del 1943, il pionieristico percettrone di F. Rosenblatt del 1958 e gli sviluppi dei modelli PDP (elaborazione parallela distribuita) di D. E. Rumelhart e J. L. McClelland del 1986.
10 Una ricerca sull’IA evolutiva applicata alla robotica che, fra i moltissimi che si potrebbero fare, un buon esempio di cosa significa opacità, è quella del gruppo di S. Kriegman che ha assegnato a una rete il compito di progettare un oggetto in grado di muoversi. L’oggetto che ne è risultato è in grado di muoversi ma ha una forma con caratteristiche che non sembrano essere funzionali. Cfr. S. Kriegman ed al., Efficient automatic design of robots (3 «Proceedings of the National Academy of Sciences», 3 oct. 2023, https://www.pnas.org/doi/10.1073/pnas.2305180120.
11 In un certo senso l’IA tira a caso contro un bersaglio che riesce a centrare semplicemente per l’enorme quantità di colpi che riesce a sparare. Peraltro esistono computazioni e algoritmi evolutivi.
12 Sul bias delle correlazioni spurie e i suoi effetti comici cfr. T. Vigen: poiché per es. l’indice di correlazione fra l’età di Miss America e il numero di decessi per ustioni da vapori è molto alto (pari a 0,87 su un massimo di 1) si può supporre che ci sia una correlazione.
13 Si tratta di bias che le reti condividono con la mente umana: la predisposizione a vedere forme familiari (pareidolia e apofenia) in forme casuali (per es. una faccia sulla superficie di Marte, figure mitologiche stilizzate nelle costellazioni ecc.) è ben nota e oggetto di studi fin dai celebri esperimenti di F. Heider e M. Simmel del 1944.
14 In un articolo che nel titolo allude alle proprietà «intriguing» delle reti il gruppo di C. Szgedy riporta casi di reti che avevano classificato in modo erroneo immagini indistinguibili agli occhi degli esseri umani (uno scuolabus per una mantide o un tempio per uno struzzo). A. Nguyen ed al. hanno poi pubblicato sullo stesso tema un articolo dal titolo più onesto sostituendo «intriganti» con «ingannabili» (fooling). Cfr. C. Szgedy ed al., Intriguing Properties of Neural Networks, in «Proceedings of the International Conference on Learning Representations», 2014; A. Nguyen, Y. Yosinski e J. Clune, Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images, in «Proceedings of the Ieee Conference on Computer Vision and Pattern Recognition», 2015.
15 Nonostante E. Horwitz, direttore scientifico della Microsoft, dichiari di cominciare a intravedere nelle reti «scintille di intelligenza generale» restano molto più simili a sistemi esperti.
16 Dunque, a rigore, per essere compresa potrebbe diventare oggetto di una meta-IA, dando luogo a uno scenario goedeliano.
17 «Non c’è bisogno di capire i dati»: C. Anderson, The Data Deluge Makes the Scientific Method Obsolete, in «Wired Magazine. The End of Theory», 23.6.2008, in ww.wired.com/science/discoveries/magazine/16-07/pb_theory, 6/23/08.