Da Pavarotti a Bocelli: l’AI generativa ha usato 12 milioni di brani protetti da copyright per addestrarsi e ci sono anche molti italiani. L’avvocato Ferdinando Tozzi spiega a Fanpage come artisti e fan possono tutelarsi e quali sono le insidie.
Bocelli, Pavarotti e Al Bano Carrisi, 2026
C'è un mondo della musica generata attraverso l'AI che guarda al repertorio italiano, invadendolo e permeandolo in nuove vesti, in nuovi suoni, ma non proprio in nuove voci. L'inchiesta condotta dalla rivista The Atlantic, con il giornalista Alex Reisner, ha sicuramente aperto uno squarcio sull'esistenza di database di tracce musicali protette da diritto d'autore, che sono state però utilizzate senza alcun consenso per alimentare le architetture di applicativi come Suno e Udio. Entrambe sono piattaforme di intelligenza artificiale generativa in grado di creare brani musicali completi, ovvero con strumenti e voce, partendo da semplici descrizioni testuali. Alcuni prompt, generati da Suno, hanno portato in testa alle classifiche statunitensi brani rock come "Walk my walk" dei Breaking Rust.
Il dataset che ha raccolto 12 milioni di brani e 91 anni di musica Anche in Italia abbiamo avuto esempi di musica generata attraverso applicativi AI come il "collettivo" Cantoscena. Ciò che ha svelato l'inchiesta è l'esistenza di quattro database, contenenti oltre 21 milioni di tracce musicali. E tra le quattro, la più importante e ricca di brani, anche italiani, è il dataset LAION-DISCO-12M. Come? Questo dataset non solo rappresenterebbe la spina dorsale per l'addestramento dei modelli generativi, ma avrebbe anche delegato a software terzi il lavoro di scraping. Ovvero avrebbero fornito uno script, un'istruzione, per poter accedere a piattaforme di streaming, come YouTube, aggirando gli accessi, le pubblicità e i meccanismi che potrebbero garantire guadagni sia agli artisti, sia alle etichette che pubblicano e distribuiscono la loro musica. LAION, secondo The Atlantic, avrebbe raccolto 91 anni di musica, dopo aver ricevuto finanziamenti da Emad Mostaque, co-fondatore ed ex CEO di Hugging Face e Stability AI. Cosa si trova nel dataset e perché permette l'addestramento di piattaforme di creazione musicale generativa Questo avrebbe permesso di contenere all'interno del dataset non il file audio, che avrebbe poi trasformato l'azione in un'appropriazione industriale su vasta scala. Infatti, all'interno del dataset, è possibile trovare i metadati associati al file, che avrebbero permesso da una parte di fornire le sequenze ritmiche, il timbro della voce e le frequenze del brano, dall'altra parte anche una struttura semantica che insegnasse all'applicativo AI la correlazione di alcune parole da utilizzare per generi musicali, o con determinate progressioni sonore. A ogni traccia viene dato un ID di riconoscimento e un URL per arrivare al brano. Tra questi brani, c'è un grande comparto della musica italiana, dalla classica al moderno, da Pavarotti a Elisa, passando per Bocelli, Al Bano Carrisi e Mina.







