L'ateneo romano e Babelscape hanno costruito un'AI multimodale che capisce testi, immagini e documenti e sa navigare il web
Quasi tutta l'intelligenza artificiale che usiamo oggi viene da un pugno di aziende private, americane o cinesi, che non rendono pubblici né i dati su cui addestrano i loro modelli né i dettagli di come li costruiscono. L'Europa, per ora, non è pervenuta. Ma da Roma arriva un segnale interessante: il gruppo di ricerca Sapienza NLP dell'Università La Sapienza ha appena presentato ChatMinerva, un assistente AI multimodale addestrato da zero in italiano, l'unico sviluppato da un ateneo pubblico italiano con pieno controllo su ogni fase del processo, dall'addestramento iniziale alla moderazione dei contenuti.
Tutto è iniziato nell'aprile 2024, con Minerva 3B, un primo modello linguistico da 3 miliardi di parametri. A novembre dello stesso anno è arrivata Minerva 7B, addestrata su 1,5 trilioni di parole grazie al supercomputer Leonardo del CINECA di Bologna, nell'ambito del progetto FAIR (Future Artificial Intelligence Research). ChatMinerva è il risultato di altri otto mesi di lavoro, sviluppato in collaborazione con Babelscape, lo spin-off della Sapienza che quest'anno compie dieci anni. Rispetto alle versioni precedenti, capisce immagini e documenti oltre al testo, effettua l'OCR (riconoscimento ottico dei caratteri) di pagine scannerizzate, conversa in forma vocale e, grazie a un collegamento in tempo reale con DuckDuckGo, può rispondere prendendo informazioni aggiornate dal web. La finestra contestuale è stata, poi, estesa fino a 32.000 token, il che permette di lavorare su documenti lunghi senza perdere il filo. E anche la sicurezza non è un dettaglio: già Minerva 7B era stato addestrato su oltre 20.000 istruzioni dedicate a contenuti sensibili, dalla discriminazione alle armi, dall'autolesionismo ai contenuti sessuali.










