Fino a ieri, l’intelligenza artificiale di Microsoft parlava con la voce e il cervello di OpenAI. Da oggi, però, l’azienda di Satya Nadella compie un passo verso l’autonomia: lancia due modelli sviluppati interamente in casa, che segnano l’inizio di una nuova fase nella sua strategia AI. Si chiamano MAI-1-preview e MAI-Voice-1, e rappresentano due direzioni distinte ma complementari. Il primo punta a competere con i grandi modelli fondazionali per l’elaborazione del linguaggio, il secondo è un modello vocale all’avanguardia, ottimizzato per la sintesi audio rapida, realistica ed espressiva.

Parole parole parole, soltanto parole

MAI-Voice-1 è un modello text-to-speech progettato per generare voce sintetica in maniera estremamente rapida, efficiente e naturale. Secondo Microsoft, è in grado di generare un minuto di audio in meno di un secondo, utilizzando una sola GPU. Il bassissimo costo computazionale lo rende ideale per applicazioni consumer e scalabili su larga scala.

L’obiettivo, chiarito anche nel blog ufficiale, è far sì che l’intelligenza artificiale non solo risponda, ma conversi, con intonazione, enfasi, pause e ritmo simili a quelli di un essere umano, perché l’azienda di Redmond ritiene che la voce sarà la principale interfaccia del futuro. Non per niente ha lanciato da poco Copilot Daily, una nuova funzionalità che presenta le notizie quotidiane in formato audio, lette da un conduttore virtuale. A questo si aggiungono progetti come Copilot Labs, dove l’utente può generare racconti, storie per bambini, meditazioni guidate, scegliendo toni e stili diversi.