I giganteschi dataset di canzoni rubate usati dagli sviluppatori di AI

Caricamento player

L’utilizzo indiscriminato di canzoni protette da copyright per l’addestramento dei software di intelligenza artificiale, che le elaborano e le riassemblano per creare nuove composizioni, è un tema molto sentito dagli addetti ai lavori. Gli sviluppatori possono accedere con molta semplicità a cataloghi immensi e sfruttarli per allenare i loro modelli senza sostenere alcun costo e senza compensare chi li ha scritte e prodotte. Musicisti e società discografiche equiparano questa pratica a un gigantesco furto di proprietà intellettuali, e stanno provando a far valere le loro ragioni in varie cause legali.

Una recente inchiesta dell’Atlantic ha raccontato dettagliatamente il contenuto di alcuni dataset estesamente utilizzati dagli operatori del settore. Alex Reisner, il giornalista che l’ha realizzata, è riuscito ad accedervi frequentando siti specializzati in condivisione di dati per l’intelligenza artificiale e consultando riferimenti presenti in articoli scientifici. I dataset scandagliati da Reisner sono quattro: uno contiene 12 milioni di brani (per ascoltarlo interamente servirebbero circa 91 anni), un altro 9 milioni, gli altri due più di 100mila.

Contengono un po’ di tutto e coprono ogni genere, dal pop alla musica colta, dalla techno all’heavy metal, fino alla musica classica. I repertori provengono da artisti di tutto il mondo, compresa l’Italia. Ci sono cantanti che riempiono gli stadi come Vasco Rossi, Luciano Ligabue, Jovanotti, Ultimo e Pinguini Tattici Nucleari; cantautori come Fabrizio De André, Francesco Guccini e Lucio Dalla; e rapper come Marracash, Fabri Fibra e Guè. Ma ci sono anche canzoni di gruppi di ultra nicchia, ascoltati soltanto da qualche migliaio di persone: Giorgio Canali e Rossofuoco, Sick Tamburo, Yuppie Flu, Uzeda e Il quadro di Troisi, per fare degli esempi.

Caricamento player

I giganteschi dataset di canzoni rubate usati dagli sviluppatori di AI

I giganteschi dataset di canzoni rubate usati dagli sviluppatori di AI

Other newsrooms on this story

Related reading

Milioni di brani usati senza licenza per addestrare l'intelligenza artificiale…

Da Bocelli ad Al Bano, l’AI si è addestrata sulla musica italiana senza…

Sony Music ha chiesto la rimozione di oltre 135mila brani generati…

La piattaforma di musica digitale Bandcamp vieterà di caricare canzoni create…

Editori contro l'IA di Anthropic addestrata sui brani di Rolling Stones ed…

Così l'intelligenza artificiale assedia le royalty dei musicisti

Other newsrooms on this story

Related reading

Milioni di brani usati senza licenza per addestrare l'intelligenza artificiale…

Da Bocelli ad Al Bano, l’AI si è addestrata sulla musica italiana senza…

Sony Music ha chiesto la rimozione di oltre 135mila brani generati…

La piattaforma di musica digitale Bandcamp vieterà di caricare canzoni create…

Editori contro l'IA di Anthropic addestrata sui brani di Rolling Stones ed…

Così l'intelligenza artificiale assedia le royalty dei musicisti