Gemini Omni è un modello che Google presenta come il punto d’incontro tra la capacità di ragionamento di Gemini - il modello di IA più avanzato sviluppato da Big G - e la generazione di media.

La formula usata da Google è questa: può “creare qualsiasi cosa da qualsiasi input”, cioè produrre contenuti di ogni genere a partire da testo, immagini, video e anche audio. Il focus iniziale, per ora, è sulla generazione di video.

Gemini rappresenta per l’azienda di Mountain View un passo in avanti verso un “world model”, cioè un sistema che non si limita a produrre contenuti, ma prova anche a simulare e comprendere aspetti del mondo fisico.

Come funziona, in termini semplici

Invece di partire da un solo prompt testuale, Omni lavora su una combinazione di materiali. L’utente può dargli una descrizione scritta, un’immagine di riferimento, una clip video, un file audio o più elementi insieme. Il modello analizza questi input in modo nativo, cioè senza trattarli come pezzi separati, e usa la conoscenza del mondo di Gemini per costruire un risultato coerente.