DiffusionGemma sfida gli LLM tradizionali: generazione parallela e fino a 4 volte più veloce su GPU

Google DeepMind ha annunciato DiffusionGemma, un nuovo modello sperimentale open source che esplora un approccio alternativo alla generazione del testo rispetto agli attuali Large Language Model (LLM) autoregressivi. Distribuito con licenza Apache 2.0, il progetto nasce con l'obiettivo di ridurre drasticamente la latenza nell'inferenza locale, sfruttando una tecnica derivata dai modelli di diffusione già ampiamente utilizzati nella generazione di immagini.

La caratteristica distintiva di DiffusionGemma è l'abbandono della tradizionale generazione sequenziale token per token. Invece di produrre una parola alla volta seguendo un ordine strettamente lineare, il modello genera e perfeziona interi blocchi di testo in parallelo, elaborando fino a 256 token per ogni passaggio. Secondo Google DeepMind, questo approccio permette di ottenere prestazioni fino a quattro volte superiori rispetto a modelli autoregressivi equivalenti quando vengono eseguiti in scenari a bassa concorrenza, come quelli tipici dell'utilizzo locale da parte di un singolo utente.

DiffusionGemma è costruito sulla base dell'architettura Gemma 4 e utilizza una configurazione Mixture of Experts (MoE) da 26 miliardi di parametri complessivi. Durante l'inferenza, tuttavia, vengono attivati soltanto 3,8 miliardi di parametri, riducendo significativamente il carico computazionale. Il modello integra, inoltre, una nuova "diffusion head" progettata specificamente per massimizzare la velocità di generazione.

DiffusionGemma sfida gli LLM tradizionali: generazione parallela e fino a 4 volte più veloce su GPU

Other newsrooms on this story

Related reading

Google rilascia DiffusionGemma, il modello open che genera testo “come le…

DiffusionGemma: How Google's New Open LLM Hits 1,000 Tokens/sec and Changes…

Google AI Releases DiffusionGemma, a 26B MoE Open Model Using Text Diffusion…

Google unveils DiffusionGemma, an AI model that breaks free of left-to-right…

Google open-sources speedy DiffusionGemma text diffusion model - SiliconANGLE

Google launches DiffusionGemma open model for faster local AI workflows