Google DeepMind ha annunciato DiffusionGemma, un nuovo modello sperimentale open source che esplora un approccio alternativo alla generazione del testo rispetto agli attuali Large Language Model (LLM) autoregressivi. Distribuito con licenza Apache 2.0, il progetto nasce con l'obiettivo di ridurre drasticamente la latenza nell'inferenza locale, sfruttando una tecnica derivata dai modelli di diffusione già ampiamente utilizzati nella generazione di immagini.
La caratteristica distintiva di DiffusionGemma è l'abbandono della tradizionale generazione sequenziale token per token. Invece di produrre una parola alla volta seguendo un ordine strettamente lineare, il modello genera e perfeziona interi blocchi di testo in parallelo, elaborando fino a 256 token per ogni passaggio. Secondo Google DeepMind, questo approccio permette di ottenere prestazioni fino a quattro volte superiori rispetto a modelli autoregressivi equivalenti quando vengono eseguiti in scenari a bassa concorrenza, come quelli tipici dell'utilizzo locale da parte di un singolo utente.
DiffusionGemma è costruito sulla base dell'architettura Gemma 4 e utilizza una configurazione Mixture of Experts (MoE) da 26 miliardi di parametri complessivi. Durante l'inferenza, tuttavia, vengono attivati soltanto 3,8 miliardi di parametri, riducendo significativamente il carico computazionale. Il modello integra, inoltre, una nuova "diffusion head" progettata specificamente per massimizzare la velocità di generazione.










