Google ha presentato Gemini Omni durante il Google I/O 2026, una nuova famiglia di modelli multimodali capace di trasformare testo, immagini, audio e video in filmati generati dall’Intelligenza Artificiale.
La svolta non riguarda uno strumento aggiuntivo, ma un cambio architetturale: un unico sistema in grado di comprendere e manipolare più tipi di media contemporaneamente. Il primo modello disponibile è Gemini Omni Flash, versione ottimizzata per clip brevi e modifiche iterative in tempo reale, già attiva nell’app Gemini, in YouTube Shorts e nella piattaforma creativa Flow.
Come funziona Gemini Omni e cosa lo distingue da Veo
Il principio centrale è la generazione “any-to-any”: l’utente può fornire nello stesso prompt una fotografia, una clip video, una traccia audio, una descrizione testuale o una combinazione di questi elementi, e il modello produce un output coerente.
A differenza di Veo, focalizzato principalmente sulla generazione video da testo e immagini, Gemini Omni integra comprensione semantica, memoria contestuale e rendering visuale nella stessa architettura. Google e DeepMind parlano esplicitamente di world model, un sistema capace di simulare comportamento fisico, coerenza spaziale e continuità temporale tra i frame.










