I Baschi si fanno il loro ChatGPT

Screenshot

L’orgoglioso popolo del Nord della Spagna voglionodifendere la loro lingua, l’euskera, dalla dominazione dell’inglese nelle ricerche su internet (El Pais)

Il Centro Basco di Tecnologia del Linguaggio ha creato un chatbot in euskera, chiamato Latxa, per contribuire alla democratizzazione dei modelli di linguaggio. Sebbene ChatGPT possa generare testo in circa 25 lingue, l’euskera non è tra queste. Questo modello di linguaggio ha una certa capacità di interagire in euskera, ma manca della precisione necessaria rispetto alle lingue con un grande numero di parlanti. OpenAI sembra dare la priorità a lingue parlate da milioni di persone, aumentando il “divario digitale” per lingue meno diffuse come l’euskera. Eneko Agirre, direttore del Centro Basco di Tecnologia del Linguaggio (HiTZ) presso l’Università dei Paesi Baschi (UPV), ha quindi avviato lo sviluppo di un chatbot specifico per l’euskera, chiamato Latxa, che già supera il GPT-3.5 in tutte le valutazioni e mira a raggiungere le competenze del GPT-4. Agirre, che ha dedicato tutta la sua carriera al trattamento dei linguaggi, ha iniziato a lavorare su strumenti per l’euskera già a 21 anni, durante il suo percorso universitario. Dal 2020, dirige il HiTZ, un centro dedicato alla promozione della ricerca, formazione, trasferimento tecnologico e innovazione nell’intelligenza artificiale centrata sul linguaggio. Il team del HiTZ è composto da informatici, linguisti e ingegneri, ed è nato dalla preoccupazione che lingue come l’euskera manchino degli strumenti digitali sufficienti rispetto alle lingue maggioritarie. Agirre sottolinea che ci sono 1.000 volte più dati per l’inglese che per l’euskera e 100 volte più per il castigliano. Ciò può far aumentare il divario digitale tra le lingue più grandi e quelle più piccole, e infatti, ChatGPT funziona peggio con le lingue meno diffuse.

Il nome Latxa è ispirato al modello LLaMA dell’azienda Meta, associato alla lana delle pecore latxa del Paese Basco. Per sviluppare Latxa, sono necessari tre elementi: un team di ricercatori e ingegneri all’avanguardia, una grande quantità di testo e la supercomputazione. HiTZ ha utilizzato il supercomputer Leonardo di Bologna per elaborare i testi necessari. L’algoritmo utilizzato è lo stesso di altri modelli di linguaggio, e consiste nel fornire testi al sistema per fargli apprendere le connessioni tra le parole. Questo processo è costoso e richiede molte risorse, che HiTZ ha ottenuto dal Governo Basco e dai Pnnr. Una volta che il sistema comprende il linguaggio, deve imparare a interagire con gli utenti, evitando di dire parole offensive o fornire istruzioni pericolose. La performance di un chatbot dipende dalla quantità di testi disponibili nella lingua in questione. Per lingue come l’euskera, che hanno meno testi disponibili, la performance può essere inferiore rispetto all’inglese. Questo è un campo di ricerca molto attivo, e HiTZ sta lavorando per migliorare Latxa.

Latxa dimostra cosa si può ottenere localmente con investimenti adeguati nei modelli di linguaggio. Il team di HiTZ non solo mira a creare un modello di linguaggio buono quanto il GPT-4, ma ha già superato GPT-4 nella grammatica dell’euskera. Agirre ritiene che lo sviluppo di questa tecnologia sia cruciale per la rilevanza culturale e identitaria delle lingue meno diffuse, evitando che il divario tra lingue molto usate e meno usate continui a crescere.