di
Sergio Donato
DiffusionGemma genera blocchi di testo in parallelo invece di un token alla volta. È open source, gira anche su GPU consumer e può superare i 1.000 token al secondo
Google aveva fatto intravedere i modelli di diffusione testuale al Google I/O del 2025. Una brevissima parentesi in cui presentò Gemini Diffusion come modello sperimentale capace di generare risposte in frazioni di secondo. A distanza di un anno arriva DiffusionGemma, la versione open source di quella tecnologia.
È un modello da 26 miliardi di parametri con licenza Apache 2.0, scaricabile da Hugging Face, che secondo Google genera testo fino a 4 volte più velocemente dei modelli autoregressivi su GPU dedicata.










