(Le Temps) I contenuti creati dall’intelligenza artificiale conquistano Internet ma i ricercatori mettono in guardia sulle conseguenze a lungo termine. Troppi “copia e incolla”
È un po’ come la storia del serpente che si morde la coda: nutrire generazioni successive di un modello di intelligenza artificiale con testi sintetici creati dalla precedente generazione di intelligenza artificiale finisce per produrre risultati assurdi, quello che gli scienziati chiamano un “collasso”. Un gruppo con sede in Gran Bretagna e Canada ha lavorato con un generatore di linguaggio relativamente modesto dotato di soli 125 milioni di parametri, i modelli più efficienti come ChatGPT‚ne hanno circa un trilione. Dal momento che il collasso è un fenomeno generale, di natura statistica, si può dire con sicurezza che si verifica indipendentemente dalle dimensioni dei modelli. Questi ultimi generano sempre errori, se questi difetti vengono ingeriti da un modello, che aggiunge i propri errori, e ripetiamo il processo, gli errori alla fine prendono il sopravvento.
Gli scienziati hanno addestrato un modello linguistico per produrre documenti enciclopedici. Lo hanno nutrito, ad esempio, con un frammento in latino dedicato alla costruzione di cattedrali, intorno al 1360, nel Somerset (Gran Bretagna). La prima generazione di modello è stata utilizzata per addestrare un secondo, che ha alimentato un terzo, ecc. Nella prima fase, il modello ha confuso Somerset per Londra e la sua Cattedrale di San Giovanni. In realtà lo è una cappella dell’XI secolo. Al secondo, il deragliamento si amplifica: il modello confonde la basilica di Saint-Pietro a Roma [completata nel XVII secolo] con San Pedro a Buenos Aires [che è solo una chiesa settecentesca] e spiega che non ci sono elementi per dire se questi due edifici siano stati costruiti durante la vita di papa Innocenzo III [morto nel 1206] o del suo successore Innocenzo [altro errore, si chiamava Onorio III]. Con la sesta generazione, AI sembra aver definitivamente perso ogni legame con la versione originaria latina.
I grandi modelli sono formati dai contenuti disponibili su Internet, la stragrande maggioranza dei quali è germinata nel cervello umano. Ma cosa accadrà domani, quando i contenuti generati dall’IA rappresenteranno una quota crescente delle informazioni accessibili sulla rete? Nessuno ha ancora trovato una soluzione per contrastare un effetto deleterio. L’individuazione di contenuti “artificiali” non è facile, mentre l’IA sta interferendo ovunque, anche nella letteratura scientifica. Ora vediamo articoli o rapporti di correzione di bozze così ben scritti che pensiamo immediatamente a una generazione di IA. Ad esempio, troviamo parole non comuni nei documenti scritti da non anglofoni. Questo può essere visto anche nelle e-mail che riceviamo. Oggi, i modelli generativi conservano alcune specificità che consentono ancora di distinguere la loro produzione da quella degli esseri umani con strumenti automatici, ma questo sarà sempre più difficile man mano che il progresso va avanti.