Prendiamo 10mila domande a crocette su 12 domini diversi dai test pubblici per valutare la comprensione e la conoscenza della lingua e cultura italiana. Rivolgiamole ai modelli linguistici di grandi dimensioni (llm) “stranieri” più noti al mondo stranieri e a quelli italiani. Chi risponde meglio? I primi.Questo non è un invito all’autocommiserazione, è l’esito di Italic, il benchmark realizzato dal network di ricerca Crisp “per incoraggiare lo sviluppo di sistemi di linguaggio naturale più sofisticati e culturalmente consapevoli”. Uno dei suoi autori, Andrea Seveso, lo definisce “una roadmap per la ricerca futura”, Wired Italia lo ha trasformato in un’occasione per tornare a dare un’occhiata ai modelli parlanti italiano “testati” e scoprire come stanno, e dove stanno andando.Come interroga ItalicVisto che la classifica realizzata da Italic ha smosso le zolle anche più silenziose dell’ecosistema ai italiano, meglio spiegare come questa suite di valutazione è nata e opera. Sul sito di Italic si trovano tutti i dettagli, dal processo di raccolta dati, fino alle strategie di selezione. Le domande poste ai modelli analizzati sono state selezionate da un dataset di 2.110.643 quesiti tratti dai test per l'ammissione ai Carabinieri, Polizia Penitenziaria, Esercito Italiano, Polizia di Stato, Corpo Forestale, Vigili del Fuoco, Aeronautica, Marina, Guardia di Finanza, ministeri italiani, insegnanti, dirigenti scolastici, infermieri e dirigenti della pubblica amministrazione. Chi volesse mettersi alla prova in prima persona, può trovarle sul sito web di ciascun ente istituzionale.Per valutare cultura e senso comune, Italic interroga in arte, educazione civica, geografia, storia, letteratura e anche viaggi, per valutare le capacità linguistiche, invece, su lessico, morfologia, ortografia, sintassi e capacità di sintesi. In tutti i sottodomini, Claude 3.5 Sonnet domina e gli ultimi posti in classifica sono occupati dai modelli che parlano italiano, in ordine prima quelli ottenuti con fine tuning su quelli inglesi e poi quelli “nativi” italiani.Commenti tra i banchiAnche se potenziali concorrenti, i modelli nazionali valutati commentano all’unisono gli esiti di Italic, come fossero voti di fine anno esposti sui cartelloni. Ciascuno con parole proprie, ma tutti fanno notare che “quando si comparano modelli da meno di una decina di miliardi di parametri, con quelli da 30 miliardi, è ovvio che emergono differenze notevoli” spiega Michele Montebovi di Llama 3.1. Uljan Sharka di iGenius, vedendo penultimo in classifica il suo Modello Italia parla di “distorsione della realtà”, perché “i modelli considerati non saranno mai comparabili: hanno troppe caratteristiche divergenti”.Roberto Navigli, di Minerva, fa poi notare che “non tutti i modelli sono addestrati per rispondere a domande a risposta multipla, ma questo non significa che non abbiano una conoscenza anche più approfondita di altri modelli”. Secondo Navigli, infatti, lasciando i modelli liberi di rispondere con parole proprie, i risultati potrebbero capovolgersi a favore di quelli addestrati in italiano. Dipende anche da come stanno evolvendo, ed è quindi il momento di scoprirlo, uno per uno, in rigoroso ordine di classifica.LLaMAntino 3L’assonanza del nome con Llama di Meta, non è un caso. Questo modello nasce infatti da un lavoro di fine tuning che il gruppo di ricerca Swap dell’Università di Bari ha effettuato su quel llm che, come molti altri, non supportava l’italiano. È da oltre due anni che opera così, sempre partendo da modelli open source e regalando loro nuove capacità. Prima con Bloom, poi con Llama 2, il team si è fatto le ossa, anche grazie all’utilizzo del supercomputer Leonardo a cui ha avuto accesso vincendo un progetto con Cineca.“Vogliamo migliorare le prestazioni dei modelli esistenti, ma soprattutto capire come funzionano - spiega Pierpaolo Basile, uno dei ricercatori di Swap - il nostro obiettivo è di ricerca e ci interessano i modelli piccoli perché hanno il vantaggio di poter svolgere compiti specifici, con meno costi e meno consumi energetici”. Non solo: le taglie piccole calzano meglio sui bisogni delle Pa anche per motivi di sicurezza: “non possono inviare e condividere i dati personali dei cittadini, quindi hanno bisogno di lavorare solo su modelli open source, installabili sul proprio server - spiega Basile - e lo stesso vale per alcune piccole aziende”.Avanti tutta sempre con llm piccoli, quindi, ma non più come laboratorio universitario. Oggi, infatti, Basile lavora agli llm come lo spin off Ai2b per poter regalare loro nuove capacità linguistiche a cui ne vuole aggiungere anche di visive. D’altronde anche le immagini, sono un linguaggio. https://swap.di.uniba.it/projects/ ora spin offLlama 3.1 ItalianoAl primo posto della classifica di Italic tra i modelli italiani, c’è n’è uno nato dal fine tuning di quelli open source di Meta. Si chiama Llama 3.1 8b Itae lo ha creato Michele Montebovi, da solo, come ricercatore e appassionato di llm, ma non di quelli generalisti. “Addestrare modelli per ottenere una buona performance generale in italiano è complicatissimo, sia per mancanza di dati che di capacità di calcolo - spiega Montebovi - non sarebbe una lotta tra pari, quindi preferisco puntare su modelli più piccoli e specializzati anche perché la maggior parte di quelli italiani viene utilizzata per processi di ottimizzazione dell'output di un modello linguistico di grandi dimensioni. In questo caso il loro compito è di rispondere in base a un certo contesto e le conoscenze generaliste dei modelli grandi non servono”.Sempre da solo, per sua libera iniziativa, ora Montebovi sta lavorando a modello addestrato da zero in italiano, sempre per ricerca, per “capire qual è la strategia migliore per il training - racconta - ci sono tantissime tecniche ed è necessario studiarne le performance per la lingua italiana, perché tutti gli studi fatti finora riguardano l’inglese. Magari saranno simili, ma voglio verificare”.LLaMAntino 3L’assonanza del nome con Llama di Meta, non è un caso. Anche questo il secondo in classifica è un modello nasce da un lavoro di fine tuning, stavolta da parte del gruppo di ricerca Swap dell’Università di Bari ha effettuato su quel llm che, come molti altri, non supportava l’italiano. È da oltre due anni che opera così, sempre partendo da modelli open source e regalando loro nuove capacità. Prima con Bloom, poi con Llama 2, il team si è fatto le ossa, anche grazie all’utilizzo del supercomputer Leonardo a cui ha avuto accesso vincendo un progetto con Cineca.“Vogliamo migliorare le prestazioni dei modelli esistenti, ma soprattutto capire come funzionano - spiega Pierpaolo Basile, uno dei ricercatori di Swap - il nostro obiettivo è di ricerca e ci interessano i modelli piccoli perché hanno il vantaggio di poter svolgere compiti specifici, con meno costi e meno consumi energetici”. Non solo: le taglie piccole calzano meglio sui bisogni delle Pa anche per motivi di sicurezza: “non possono inviare e condividere i dati personali dei cittadini, quindi hanno bisogno di lavorare solo su modelli open source, installabili sul proprio server - spiega Basile - e lo stesso vale per alcune piccole aziende”.Avanti tutta sempre con llm piccoli, quindi, ma non più come laboratorio universitario. Oggi, infatti, Basile lavora agli llm come lo spin off Ai2b per poter regalare loro nuove capacità linguistiche a cui ne vuole aggiungere anche di visive. D’altronde anche le immagini, sono un linguaggio. https://swap.di.uniba.it/projects/ ora spin offMaestraleA inizio 2024, con zero fondi, è nato Maestrale, un modello da 7 miliardi di parametri ottenuto dai due italiani Mattia Ferraretto ed Edoardo Federici rimaneggiando Mistral. “Da subito abbiamo lavorato sia sulle tecniche di training per il fine tuning modello, sia sui dati, creando un mix multilingua ma focalizzato su quelli italiani in modo che siano i più eterogenei possibile” racconta Federici, spiegando perché italiano al 100% secondo non funziona. “Tanta conoscenza non è in italiano e poi, quando si ha bisogno di dati di qualità, bisogna usare quelli americani. Solo lì hanno i finanziamenti per raccoglierli ed etichettarli”.Guardando invece al panorama di llm italiano, secondo Federici più che spingere, e a volte anche sgomitare, “per arrivare ad annunciare il modello addestrato in lingua italiana migliore in assoluto, sarebbe meglio lasciare spazio alla diversità e dividersi i compiti, perché nell’attuale panorama ci sono parecchie sfide su cui lavorare, rendendo la ricerca sempre più interessante” commenta. E poi confessa la sfida che ha scelto di affrontare lui ora: trovare le lacune di Maestrale, usando dati sempre multilingua ma più filtrati.Velvet 14BCon i suoi 14 miliardi di parametri, anche il modello Velvet sviluppato da Almawave ha le idee chiare su come lavorare su sé stesso nei prossimi mesi. “Si vuole accelerare su disponibilità di dati di qualità e infrastrutture solide e accessibili, combinandole con una visione verticale chiara, basata su best practice e processi reali e in grado di fare la differenza” afferma Antonio Cerqua, chief innovation officer di Almawave, ribadendo l’ambizione di sviluppare e applicare ai e llm in settori specifici, “integrandoli in modo efficace nei contesti che si vuole concretamente far evolvere”.Parola d’ordine, focalizzazione, quindi: no ai modelli generalisti, sì a quelli che offrono risposte utili e adeguate alle esigenze dell’ecosistema imprenditoriale italiano e delle pa. Per crearle, dal punto di vista tecnico Almawave sta puntando sull’integrazione dei propri progressi in una piattaforma multi agente con vari fine tuning, aggiungendo nuove funzioni e “sperimentando nuove architetture sempre più efficienti, utilizzabili sia on cloud sia on the edge” spiega Cerqua. Avanti tutta anche su robustezza, adattabilità e accuratezza nei vari contesti applicativi, con un forte accento sulla privacy, sempre più richiesta e sempre più necessaria. Su questo, ma anche su molto altro, l’AI Act resta un riferimento operativo importante per Almawave che dall’Europa desidererebbe investimenti nella condivisione di buone pratiche e nella valorizzazione di casi d’uso reali che spronino le tecnologie europee a maturare sempre di più.Modello ItaliaCon l’Italia nel nome e nella sua carta di identità come luogo di nascita, questo modello è il primo classificato tra quelli non ottenuti tramite fine tuning di modelli non italiani. IGenius l’ha infatti lanciato a giugno 2024, dopo averlo allenato con Cineca su un dataset italiano, e oggi continua a lavorare sulla nostra lingua, facendo in modo che non sia sottorappresentata. Il ceo Sharka spiega che perché avvenga “servono almeno un trilione di token in italiano e il nostro dataset originale li ha, anche grazie alle partnership strette finora. Il prossimo passo sarà quello di offrire modelli cutting edge in linea con l'Ai Act, rendendoli disponibili anche su Hugging Face”.Il futuro, però, secondo Sharka è nelle mani degli agenti ai (software che utilizzano l’ai per agire autonomamente e raggiungere obiettivi specifici per conto dell'utente). “Il modello rimane al centro delle performance di ai generativa, ma non è più l'elemento fondamentale. Anche in Italia dobbiamo costruire fin da ora agenti ai molto sofisticati, per risolvere le sfide industriali e della pubblica amministrazione. Basta accanirci sui modelli, bisogna cambiare direzione, altrimenti sprechiamo forze e tempo in giochi di forza o esercizi di stile”.MinervaPrendendo in prestito il nome dalla dea della saggezza, questo modello nasce a Roma, nell’Università Sapienza, dove il docente di informatica Roberto Navigli ha istituito anche un omonimo osservatorio di llm “per monitorare in modo costante l'evoluzione della situazione italiana”. Occhi puntati soprattutto sui dati, su quelli italiani si intende, quelli che scarseggiano: “sarebbe estremamente utile fare sinergia per raccogliere e distribuire i dati provenienti da enti pubblici e da aziende - spiega Navigli- e poi servono forze e finanziamenti per creare un gruppo solido di esperti che lavorino a llm di prossima generazione”.Mentre ci lavora, Navigli avanza su altri tre fronti. Prima di tutto vuole allenare il modello attuale in modo che sia in grado di leggere un libro, e non solo testi lunghi come gli articolo di giornale. E poi vuole creare due nuovi llm, uno più grande, multimodale e più sostenibile a livello sia energetico che ambientale, e uno di prossima generazione i cui dettagli sono ancora top secret.Serve Unione, europea e internaNato per supportare gli llm in tutte le 24 lingue ufficiali europee, il progetto OpenEuroLLM potrà dare una mano a chi lavora su quelli in italiano? Secondo Montebovi di Llama 3.1, soprattutto dal punto di vista dei dati, “sempre che resteranno open source”. Secondo Sharka di Modello Italia, invece, nonostante il buon intento, l’iniziativa Ue non ha e non avrà mai la velocità che (gli) serve per stare sul mercato. Lo afferma in modo lapidario: “Sta affogando nella burocrazia: spero che ce la facciano ma, sfruttando le piattaforme istituzionali e pubbliche, i privati possono lavorare molto velocemente da soli. Se ci si mette a costruire llm insieme al pubblico, si diventa lenti e non competitivi”.Navigli, di Minerva, guarda all’iniziativa con lo stesso approccio inclusivo e collaborativo che applica quando organizza meeting, workshop, conferenze per far sì che i ricercatori scambino informazioni sia scientifiche che ingegneristico-tecnologiche. Con rammarico, Navigli commenta che “nel panorama italiano non ci sono altri gruppi di ricerca che aspirano all'addestramento da zero di modelli italiani e ci sono pochissime realtà industriali che hanno rilasciato dei modelli, e sempre con poca documentazione. Eppure un modello nazionale italiano, completamente documentato e realmente open source sarebbe strategico per il nostro Paese, come lo è per molti altri”. Per ora si resta a guardare iniziative come BritLLM e a SwissLLM, in attesa di un ItaLLM che passi i test pubblici.
Cercasi large language model che parli bene l'italiano
Una recente ricerca mostra che i modelli “made in Italy” non sono i migliori nei test su lingua e cultura italiana. Per capire se è vero e perché, li abbiamo interrogati di persona








