Google irrompe nel mercato della generazione video con AI. È Gemini Omni, un modello presentato a Google I/O, che promette di creare e modificare video tramite linguaggio naturale e senza soluzione di continuità, mantenendo coerenza visiva, fisica e narrativa con tutto ciò che è già nella scena. Si aggiunge un personaggio, si cambia l’ambiente, si modifica l’azione: ogni comando si accumula al precedente senza rompere il filo.

Cosa fa Gemini Omni

Si può partire da un video girato dal vivo e chiedere a Omni di intervenire su ciò che accade: cambiare l’azione, aggiungere personaggi o oggetti, trasformare un momento in qualcosa di completamente diverso. Si modifica l’ambiente, l’angolazione, lo stile visivo, o si interviene su singoli dettagli, senza perdere la continuità della scena originale.

Secondo Google DeepMind, Omni non si limita a produrre immagini convincenti: ragiona su ciò che dovrebbe accadere. Il sistema integra una comprensione della fisica, con forze come gravità, energia cinetica e dinamica dei fluidi, combinata con la conoscenza contestuale di Gemini in ambiti come storia, scienza e cultura.

È possibile anche definire un linguaggio visivo preciso, applicando stili, movimenti ed effetti usando riferimenti in input o descrivendoli in linguaggio naturale.