Shadow libraries e modelli generativi: il copyright è ancora difendibile? - Agenda Digitale

Con l’ordinanza del 5 maggio 2026 la Corte del Distretto Nord della California ha parzialmente accolto la “Motion to Dismiss” rivolta da NVIDIA Corporation nei confronti dell’azione giudiziale avviata il 9 marzo 2024 dagli autori Abdi Nazemian, Brian Keene e Stewart O’Nan[1], i quali contestano all’impresa detentrice dei modelli di intelligenza artificiale “Megatron”[2] di avere addestrato i suoi LLM facendo uso abusivo delle opere da essi create.In termini concreti, il provvedimento interinale ha respinto l’eccezione di carenza della responsabilità vicaria di NVIDIA per le violazioni dei diritti d’autore commesse dalla medesima, ma ha dichiarato che sussistono i presupposti per l’accertamento di una responsabilità per contributory infringement in capo all’impresa di Santa Clara (CA) per l’appropriazione da parte della stessa dei testi delle opere dei tre autori con provenienza da “The Pile” una sorgente pirata che incorpora una percentuale di libri illecitamente copiati dal sito web “Books3”.Indice degli argomenti

Diritto d’autore e intelligenza artificiale nel caso NVIDIALe domande esaminate nel summary judgmentLe nuove regole nei contenziosi sui modelli di IAMeta, Llama e il mercato delle opere letterarieIl rischio di diluizione del mercato editorialeLe cause Cognella contro Meta e AnthropicDiritto d’autore e intelligenza artificiale: gli interrogativi apertiLe possibili direttrici di tutela del diritto d’autoreLa direttrice tecnologicaLa direttrice legislativaLa direttrice negozialeUna partita difficile ma non chiusaDiritto d’autore e intelligenza artificiale nel caso NVIDIASecondo le evidenze offerte all’esame della Corte, il fatto che NVIDIA si sia impossessata dei contenuti delle opere degli attori riproducendoli con provenienza dai dataset dei siti web pirata, indicati come “shadow libraries”[3], assume una particolare rilevanza in quanto si tratta di circostanza che risulta ricorrente da parte delle aziende che dispongono degli apparati di IA capace di produrre effetti devastanti sul mercato editoriale, tanto da rendere legittimo ciò che per definizione non lo è, né lo può essere.Oltretutto questi fatti accadono in un momento di significativa evoluzione della giurisprudenza statunitense in materia di responsabilità dei fornitori di servizi on-line, orientata dalla bussola della Corte Suprema, la quale ha reso maggiormente difficoltosa la prova della conoscenza e volontarietà del loro comportamento nell’omettere di rimuovere i contenuti abusivi reiteratamente veicolati dagli utenti sulle piattaforme digitali pur dopo che i titolari dei diritti hanno ripetutamente rese note le violazioni stesse.[4]Sotto diverso profilo, va osservato che, nell’ambito dei sistemi di IA, il costante e progressivo incremento della disponibilità di output che restituiscono agli utenti contenuti simili, se non identici, a quelli originali, fenomeno questo che affligge al momento soprattutto il mercato delle opere letterarie e delle immagini fotografiche, in tempi relativamente recenti è andato espandendosi dagli Stati Uniti ad altri paesi del mondo[5], ove un crescente numero di tribunali è impegnato ad affrontare problemi analoghi a quelli oggetto delle cause radicate oltreoceano[6].Ciò implica la necessità di affrontare questioni tecniche complesse in tema di impiego dei modelli di intelligenza artificiale che richiedono esami e valutazioni le quali, in taluni casi, sfuggono alla sola scienza giuridica richiedendo competenze di esperti informatici di primo livello[7].Le domande esaminate nel summary judgmentNel summary judgment a firma del giudice Jon S. Tigar, le domande svolte dalla convenuta NVIDIA sono state prese in esame analiticamente, chiedendosi con esse la reiezione delle istanze degli autori ricorrenti che miravano a: i) estendere le violazioni contestate all’addestramento dell’apparato di intelligenza artificiale denominato Megatron 345M e a ogni ulteriore modello che non fosse stato in precedenza identificato in atti; ii) includere la provenienza dei contenuti di addestramento ai siti web abusivi “Pirate Library Mirror” e “Bibliotik” e a qualsiasi altra fonte illecita; iii) considerare che la convenuta abbia utilizzato i protocolli BitTorrent per scaricare i contenuti illeciti dalle fonti pirata; iv) attribuire la responsabilità “vicaria” e quella per “contributory infringement” all’impresa proprietaria degli apparati di IA.Il giudice, nell’affrontare questo caso, ha partitamente esaminato tutte le questioni sopra tratteggiate sulla scorta degli elementi di prova faticosamente confluiti in giudizio anche a causa dei ritardi nell’esecuzione dell’ordine di “discovery” da parte di NVIDIA, stigmatizzati dal giudice competente per tale fase di acquisizione documentale.Le conclusioni cui la Corte è pervenuta, per avere NVIDIA fornito ai propri utenti le indicazioni per scaricare automaticamente i contenuti del sito web pirata “The Pile”, si possono sintetizzare come segue:i) l’apparato di IA Megatron 345M è stato addestrato attraverso un dataset che conteneva le opere dei ricorrenti e tale circostanza può ritenersi applicabile anche ai modelli di IA non identificati nel corso del giudizio sommario;ii) i siti pirata di provenienza delle copie delle opere utilizzate per l’addestramento dei modelli di intelligenza artificiale denominati “Pirate Library Mirror” e “Bibliotik” non sono mai stati indicati dai ricorrenti in atti come fonte delle violazioni, per cui tale istanza di NVIDIA viene rigettata;iii) non può essere accolta l’istanza della convenuta di escludere che i file contenenti le opere protette provenienti da fonti terze possano essere state scaricate facendo uso del BitTorrent Protocol, in quanto quest’ultimo è uno strumento funzionale ad acquisire il materiale protetto e non un contenitore dello stesso, così che escluderne l’avvenuto impiego “sarebbe come negare che siano stati utilizzati i pennelli in un caso concernente il ritratto di un delfino”;iv) in base agli elementi confluiti in causa sussiste a carico di NVIDIA la sola ipotesi della sussistenza di una responsabilità derivante da “contributory infringement”, in quanto non è stata provata la sussistenza da parte della convenuta del “vicarious infringement”. Secondo il giudice, per la sussistenza di tale forma di responsabilità secondaria o indiretta deve esservi una corrispondente possibilità per NVIDIA di porre fine o di limitare la condotta dei suoi utenti nello scaricare le opere contenute nel sito web “The Pile” e, al contempo, avere la possibilità di farlo effettivamente. I ricorrenti, afferma la Corte, mentre hanno provato la conoscenza di specifici atti di violazione dei diritti d’autore posti in essere da NVIDIA e l’induzione degli utenti a commettere le violazioni assumendo una potenziale responsabilità secondaria (“contributory infringement”[8]), non hanno identificato alcun diritto che avrebbe fatto capo a NVIDIA nell’interferire con le decisioni di ciascun utente nell’avere accesso al sito web pirata “The Pile”. Inoltre, scrive l’ordinanza, non è stato provato che ai convenuti sia derivato un beneficio finanziario diretto dalle singole violazioni, dovendo a tal fine sussistere un nesso eziologico fra la violazione commessa dall’utente e il vantaggio economico per il gestore del modello di IA. In assenza anche di tale seconda condizione non si può configurare una responsabilità vicaria in base alle norme sul diritto d’autore.Le nuove regole nei contenziosi sui modelli di IAQuesta decisione interlocutoria della Corte del Distretto Nord della California pone ulteriori “mattoni” nel “muro” delle regole che si desumono dalle azioni svolte dai titolari dei diritti e dalle difese dei gestori dei modelli di intelligenza artificiale. Essa va inoltre ad integrare i principi che hanno segnato le cause Bartz v. Anthropic e Kadrey v. Meta[9] che – seppure riconoscano l’applicabilità della dottrina del “Fair-Use” trasformativo da parte dei gestori dei modelli di IA nell’utilizzo dei contenuti digitali – non scalfiscono l’assioma della piena tutela del diritto d’autore, confermata nell’incipit della decisione della Corte Suprema nel caso Cox Communications v. Warner Music del 25 marzo 2026[10].Nel medesimo giorno della pubblicazione della decisione del giudice Tigar nel caso Nazemian, il 5 maggio 2026, alcune fra le principali case editrici statunitensi, la Elsevier Inc., la Cengage Learning Inc., il Macmillan Publishing Group, LLC, il D/B/A/ MacMillan Publishers, la McGraw Hill LLC, l’autore Scott Turow in persona e la sua casa editrice S.C.R.I.B.E. Inc., tutti costoro individualmente e in qualità di membri di una class-action nell’interesse collettivo della propria categoria, hanno convenuto in giudizio sia la Meta Platforms Inc. che il legale rappresentante di tale impresa il Sig. Mark Zuckerberg.Il ricorso, che si basa su sei domande specifiche di accertamento dell’asserita violazione dei diritti d’autore[11], coinvolge direttamente il titolare dell’azienda in quanto si asserisce in atti che egli nella sua qualità di fondatore, di presidente e di C.E.O., oltre che di azionista di controllo, avrebbe il controllo e il potere di decisione finale sullo sviluppo e la distribuzione dei modelli di intelligenza artificiale Llama, tanto che sotto la sua direzione i dipendenti di New York e delle altre sedi dell’impresa avrebbero condotto sottrazioni massive delle opere protette dei ricorrenti[12].La responsabilità di Mark Zuckerberg si baserebbe sull’avere egli stesso dato l’autorizzazione diretta alla commissione delle condotte illecite dell’impresa, sull’avere scelto di consentire all’uso di materiale pirata, piuttosto che avviare o proseguire le trattative per l’acquisizione in licenza dei diritti sulle opere, per avere istruito i dipendenti coinvolti sotto la propria direzione e controllo e per avere preso la decisione finale, nel mese di aprile 2023, di abbandonare ogni iniziativa di licensing a favore della pratica del downloading delle opere dei ricorrenti con provenienza dalle shadow libraries tramite il protocollo di BitTorrent.Meta, Llama e il mercato delle opere letterarieLa narrativa svolta in atti da editori e autori si incentra su alcune circostanze tanto fondamentali quanto acclarate: le opere letterarie hanno un mercato che non si limita ai libri nelle loro attuali molteplici forme sia cartacee che digitali, ma si estende alle elaborazioni e agli adattamenti che confluiscono in altre opere derivate destinate a propria volta a svariati sfruttamenti, capaci di dare lavoro a migliaia di imprese e di collaboratori, i quali tutti fanno crescere il giro d’affari e favoriscono la creatività orientandola verso nuove e sempre più sofisticate modalità espressive. Senza un’adeguata tutela dei diritti d’autore – evidenzia l’atto introduttivo del giudizio in questione – non ci può essere incentivo per autori e editori di creare, investire in nuove opere, di tal guisa soffocando “una delle più importanti motrici dell’espressione creativa dell’uomo”.La ricostruzione dei fatti offerta dai ricorrenti, si fonda sul fatto che Meta avrebbe copiato abusivamente, con provenienza da una grande varietà di fonti, le quali includono il dataset del c.d. “Common Crawl” (cioè dai testi provenienti da miliardi di pagine disponibili sul web, creando essa stessa un Common Crawl denominato “CCNet” al fine di filtrare i dati di migliore qualità atti ad addestrare i modelli di IA di cui essa dispone. Tali dati avrebbero rappresentato il fondamento della prima fase di addestramento dei modelli Llama, seguita da un’altra fonte di approvvigionamento di contenuti, denominata “C4”[13], sviluppata da Google e che conterrebbe molti testi di libri estratti da “b-ok.org” un sito web che ha ospitato raccolte di opere conosciuta sotto la denominazione di “Z-Library” e altri 27 siti web che sarebbero stati identificati dal Governo degli Stati Uniti come entità che operano nella pirateria e nella contraffazione[14], essendo peraltro ospitati in paesi terzi ove non sono state implementate le norme del TRIPs[15].Oltre ai siti web pirata sopra identificati, i ricorrenti assumono in atti che Meta si sia avvalsa per l’addestramento dei propri modelli Llama di ulteriori shadow libraries, fra cui “LibGen”, “Anna’s Archive”, “Sci-Hub”, “Sci-Mag” e altre, tutte basate al di fuori dagli Stati Uniti, ma accomunate dal fatto di mettere a disposizione del pubblico materiale pirata in violazione delle norme vigenti negli Stati Uniti.Poiché per scaricare le opere utilizzate per addestrare i propri modelli di intelligenza artificiale Meta impiega il protocollo BitTorrent, questa forma di file-sharing comporta il contemporaneo caricamento e scaricamento (downloading e uploading) dei contenuti in modo tale che i 134,6 terabyte da essa scaricati dalla rete fra i mesi di aprile e luglio 2024, sono stati oltre che utilizzati per l’addestramento dei modelli Llama, anche distribuiti, cioè messi a disposizione del pubblico illegalmente. Si tratterebbe, in termini di paragone dei contenuti digitali in questione con i libri fisicamente disponibili, di un equivalente di cinque milioni di esemplari di 650 pagine ciascuno relativamente ai 40,42 terabyte distribuiti al pubblico, mentre i contenuti acquisiti da Meta per l’addestramento assommerebbero in totale, nel periodo preso in considerazione, a 134,6 terabyte.Le azioni sopra descritte sarebbero state attuate deliberatamente dai dipendenti di Meta con il consenso del loro CEO, conseguentemente violando le norme sul diritto d’autore e rimuovendo le informazioni sul regime dei diritti che includevano le indicazioni sul copyright, il nome degli autori, il nominativo degli editori e le altre informazioni sulla pubblicazione.Gli stessi ricorrenti avrebbero precisamente identificato numerose opere di loro proprietà che sarebbero state copiate e utilizzate da Meta senza il loro consenso e in assenza di qualsiasi trattativa per acquisirle in licenza, generando attraverso i propri apparati di intelligenza artificiale dei veri e propri sostituti delle opere originali.Fra gli effetti causati dall’uso dei modelli generativi “Llama”, i ricorrenti hanno elencato gli output che risultano attualmente disponibili per gli utenti. Essi includono: a) copie dei contenuti di tenore verbale identico o quasi identico al loro originale; b) parafrasi e sommari delle opere; c) falsi e imitazioni di bassa qualità. Tali prodotti invaderebbero il mercato diluendo l’intero settore delle opere letterarie, al contempo producendo opere derivative non autorizzate usurpative dei diritti dei loro titolari. E ciò accadrebbe avuto riguardo a ogni e ciascuna delle opere oggetto di causa.Il rischio di diluizione del mercato editorialeUno dei punti più delicati che sollevano i ricorrenti nel loro ricorso è dato dal fatto che la velocità con cui vengono generati i contenuti attraverso l’uso dei modelli di intelligenza artificiale determina il rischio di diluizione del mercato per le opere del medesimo genere che si trovano in vendita, in tal modo riducendo il mercato dei contenuti legittimi e progressivamente facendo crescere quello dei contenuti abusivi. Questo non è un fatto ipotetico – sostengono gli attori – è una realtà, in quanto è provato da diversi casi portati all’attenzione della Corte, che tali atti si sostanziano in una vera e propria proliferazione di migliaia di opere che stanno saturando gli scaffali digitali di Amazon e di Kindle, piattaforme che propongono moltissime opere simili o derivate dai saggi di maggior successo di ciascuno degli editori coinvolti.Questa situazione si verifica anche avuto riguardo ai sequel, prequel e spin-off e ad altre elaborazioni o adattamenti delle opere letterarie, i quali includono in taluni casi gli stessi personaggi iconici degli autori delle opere originali, così da violarne i diritti d’autore, ma anche l’onore e la reputazione degli autori cui vengono attribuiti ingiustamente lavori di bassa qualità rispetto al loro standard creativo.La situazione sopra illustrata non è circoscritta alle parti ricorrenti di questa causa. Essa si estende a editori e autori che operano negli Stati Uniti e che si trovano ad affrontare le massive acquisizioni abusive di materiale protetto da parte dei gestori degli apparati di intelligenza artificiale.Le cause Cognella contro Meta e AnthropicA riprova di questa circostanza, il 4 maggio 2026, un giorno prima del deposito del ricorso sopra brevemente illustrato, l’editore di opere universitarie Cognella, Inc., titolare di licenze per la pubblicazione di migliaia di libri di testo e di altro materiale didattico, ha avviato due cause parallele nei confronti di Meta e di Anthropic PBC, avuto riguardo ai rispettivi modelli di intelligenza artificiale, Llama e Claude.L’editore Cognella denuncia apertamente il fatto che i principali gestori degli apparati di intelligenza artificiale si stanno cimentando nella loro “corsa alle armi” per il dominio sui sistemi di intelligenza artificiale generativa, allo scopo di costruire prodotti migliori, più evoluti e il più rapidamente possibile, nella consapevolezza che si tratta di un business da triliardi di dollari e che, giungervi in ritardo, rappresenterebbe per ogni operatore una perdita di utili e di mercato.Proprio per questa ragione, i gestori degli apparati di IA si sono resi conto che il loro lavoro di sviluppo di questa nuova tecnologia risulta facilitato dall’impiego dei dataset che offrono i contenuti più invisi alla cultura statunitense, quelli delle shadow libraries pirata le quali – come è stato correttamente detto in atti – non possono essere definite “biblioteche”, in quanto esse sono raccolte mettono a disposizione del pubblico file abusivi ed illegittimi e non certo raccolte di opere originali.Anche nei ricorsi dell’editore Cognella si contesta alle due imprese proprietarie dei diritti di privativa sui rispettivi modelli di intelligenza artificiale la violazione volontaria dei diritti d’autore da essa detenuti sulle proprie opere e la inerente rimozione intenzionale delle informazioni sul regime dei diritti. Tuttavia, le domande articolate in queste due cause riguardano la violazione di tre specifiche norme, che riguardano il Direct Copyright Infringement, il Contributory Copyright Infringement e la rimozione delle informazioni sul regime dei diritti, previste dalle norme del Titolo 17 dello U.S. Code, par. 501 e par. 1202(b)(1).Le domande svolte in giudizio dall’editore Cognella mirano, oltre ad ottenere i danni stabiliti dalla legge, anche un ordine permanente del giudice di cessazione delle violazioni contestate da parte dei resistenti, la retroversione degli utili e le spese legali, al di fuori di una class-action: in queste due cause l’editore agisce nel solo suo proprio interesse. Mentre in entrambe le cause Cognella lamenta la copia illecita delle proprie opere in seno agli svariati milioni di esemplari acquisiti con provenienza dalle “shadow libraries”, nel caso di Anthropic, l’editore rileva che quest’ultima ha effettuato la scansione di milioni di opere fisiche con la creazione di una raccolta da conservare per sempre, mentre tale riferimento non è presente nell’atto notificato a Meta.Un’ulteriore serie di notazioni va svolta su questi due casi, paralleli, ma differenti sotto taluni aspetti. La prima è data dal fatto che per Anthropic esistono già fatti accertati di violazione dei diritti d’autore acquisiti attraverso la “discovery” svolta nella class-action svolta contro di essa dagli autori Bartz et al[16].Inoltre, va notato che fra i due modelli di IA presi di mira da Cognella, mentre “Claude” è un apparato potente ma a sé stante, “Llama” è una chatbot integrata nell’ecosistema di Meta che gli può permettere di raggiungere 3 miliardi di utenti, almeno potenziali.Diritto d’autore e intelligenza artificiale: gli interrogativi apertiNell’attesa che i convenuti delle cause che sono state passate in sintetica rassegna articolino le proprie difese – Meta ha già fatto sapere tramite i propri legali che si intende opporre con decisione alle affermazioni e domande attoree -, una visione prospettica dei fatti ci pone di fronte a inquietanti interrogativi.Se l’intenzione dei ricorrenti, editori librari e autori letterari che agiscono in tutte queste cause è quella di imporre un risarcimento del danno alle parti convenute per l’uso illecito dei loro contenuti estratti dalle shadow libraries, ovvero la stipula dei contratti di licenza che le controparti non hanno portato a compimento o rifiutato, c’è da domandarsi in quale modo si possa evitare che gli apparati di intelligenza artificiale controllino in un futuro non lontano l’intero settore dell’editoria libraria.Infatti, è certo che non sia possibile ritornare a una situazione precedente all’acquisizione dei contenuti immagazzinati nei dataset dei modelli di IA, come è sicuro che il corrispettivo per una licenza vale comunque una frazione infinitesimale del valore creato dai modelli già creati e operativi, i quali vanno a competere su un mercato, quello librario, senza assumere costi di produzione rilevanti, producendo istantaneamente opere derivate dalle originali, non necessitando di editori, e neppure di un sistema di distribuzione o di attività di promozione della vendita. In questo contesto il singolo autore viene di fatto estromesso dal mercato e non può sopravvivervi.Di conseguenza, il valore delle opere tutelate si sposta dal contenuto all’infrastruttura che lo distribuisce, di fatto espropriandolo dalle sue radici: l’autore e l’editore. Di tal fatta, c’è anche da chiedersi quale incentivo possa avere un autore a creare opere nuove se di esse viene sistematicamente espropriato, in quanto il risultato del suo lavoro viene usato senza il suo consenso e senza un corrispettivo adeguato.Le domande in gran parte retoriche che sono state sopra poste al lettore ci fanno pensare che i tribunali potranno solamente risarcire i danni causati, ma ciò non muterebbe lo status quo, cioè il fatto che il sapere è già stato acquisito dai modelli di intelligenza artificiale e la concentrazione del potere di disporne è parimenti avvenuta.Da queste constatazioni discendono conseguenze inquietanti che ci pongono di fronte all’interrogativo circa il destino della cultura, della creatività e del diritto di proprietà intellettuale.Le possibili direttrici di tutela del diritto d’autoreTuttavia, sarebbe riduttivo e soprattutto ingiusto arrestarsi a questa constatazione, per quanto grave e fondata. La storia del diritto — e in particolare quella del diritto d’autore — è disseminata di momenti in cui l’emergere di nuove tecnologie sembrava rendere inevitabile la fine di ogni forma di protezione creativa. La stampa a caratteri mobili fece tremare i copisti medievali; la fotocopia minacciò l’editoria scientifica; il videoregistratore parve una minaccia inarrestabile per il cinema; il peer-to-peer sembrò condannare l’industria musicale.In ciascuno di questi casi la legge ha saputo, seppure con fatica e ritardo, trovare nuovi equilibri. Non ha mai restituito il passato, ma ha sempre tracciato le coordinate di un futuro ancora difendibile.Oggi, tre direttrici offrono una prospettiva che, pur nella complessità della materia, lascia aperto uno spiraglio di tutela concreta al diritto d’autore.La direttrice tecnologicaLa prima è di natura tecnologica: il diffondersi dei c.d. watermarking invisibili e dei sistemi di tracciabilità dell’origine dei contenuti, già in fase di implementazione da parte di diversi consorzi internazionali, potrebbe consentire agli autori e agli editori di dimostrare in sede giudiziale non solo che le proprie opere sono state utilizzate senza consenso, ma da quale opera frutto dell’addestramento provenga un determinato output, superando la barriera probatoria oggi più difficile da abbattere.La direttrice legislativaLa seconda è di natura legislativa: il diritto d’autore sta conoscendo una nuova primavera regolamentare. L’Unione Europea, con l’AI Act, e gli stessi Stati Uniti, attraverso proposte legislative dedicate ai modelli generativi[17], stanno ragionando sull’introduzione di obblighi di trasparenza che impongano ai fornitori di IA di rendere pubblici — o quantomeno accessibili dietro richiesta — i cataloghi delle opere utilizzate per l’addestramento. Il diritto alla remunerazione collettiva, già conosciuto in Europa per le cessioni di grandi dataset, potrebbe essere esteso e adattato al contesto dell’IA, creando un meccanismo attraverso cui ciascun autore riceva una quota del valore generato dall’uso del sistema, indipendentemente dal fatto che la singola opera sia identificabile o meno nell’output finale.La direttrice negozialeLa terza è di natura negoziale: le stesse aziende che sviluppano i modelli di intelligenza artificiale, consapevoli che un contenzioso strutturale e permanente erode il loro valore reputazionale e rallenta la loro capacità di crescita, hanno iniziato a sedersi al tavolo delle trattative. Alcuni segnali concreti vanno in questa direzione: la disponibilità manifestata da alcune aziende a negoziare accordi di licenza collettiva, le iniziative di associazioni di categoria come l’Authors Guild negli U.S.A. e la Authors’ Licensing and Collecting Society (ALCS) in Gran Bretagna[18], che stanno aprendo confronti formali con i principali fornitori di servizi di intelligenza artificiale, e il recepimento da parte di piattaforme come quelle di creative commons, di clausole specifiche sull’uso delle licenze da parte dei modelli generativi. Se queste dinamiche si consolidassero in accordi strutturati — e il loro effetto dipende dalla capacità di raggiungerli — il sistema non scomparirebbe: si trasformerebbe.Una partita difficile ma non chiusaNessuna di queste strade, presa singolarmente, è sufficiente a garantire che la tutela del diritto d’autore sulle opere letterarie rimanga intatta nella sua forma attuale. Lo scenario è già mutato e continuerà a mutare. Ma il diritto non è statico: è un organismo vivo, capace di adattarsi. Come ricordato dalla Corte Suprema nel caso Cox Communications, l’assioma della piena tutela del diritto d’autore non è un relitto del passato, bensì un principio dinamico, la cui persistenza dipende dalla capacità del sistema giuridico di interpretare con coraggio e rigore le sfide che il presente gli pone. A condizione che autori, editori, giuristi e legislatori sappiano fare valere le proprie ragioni — e lo facciano con continuità e determinazione —, la partita non è persa. È solo, come tutte le battaglie che contano, difficile.[1] Abdi Nazemian è uno scrittore iraniano-statunitense che scrive opere incentrate su temi come l’identità LGBTQ+, l’accettazione di sé e l’amicizia. Egli ha scritto, fra l’altro, “Like a Love Story” (sull’epidemia di AIDS a New York negli anni ’80/’90) e “The Chandler Leg”.Brian Keene è autore di numerose opere di horror e di fantascienza, fra cui si ricordano qui: “The Rising” e la serie “Dark Earth”.Stewart O’Nan, è uno scrittore di narrativa letteraria (literary fiction) spesso riguardanti personaggi ordinari alle prese con situazioni difficili (lutto, crisi, segreti). Fra le sue opere si segnalano: “Songs for the Missing” e “The Odds of Being a Nerd”.I tre autori, che pubblicano le proprie opere con differenti (e numerose) case editrici, sono accomunati fra loro dal fatto di creare storie che esplorano l’identità, la sopravvivenza e il rapporto con la vulnerabilità umana, ciascuno nel proprio genere.[2] La “famiglia” di Large Language Models (LLM) di IA creata dal gruppo di lavoro “Applied Deep Learning Research” di NVIDIA è focalizzata su obiettivi di efficienza, velocità e ampiezza di scala, consentendo agli sviluppatori di addestrare modelli fondati su parametri numericamente elevati attraverso migliaia di GPU (Graphic Processing Unit). Rientrano in tale ambito la Megatron LM (Library), il Megatron-Core (Library), il Megatron-Turing NLG (MT-NLG). Sono altresì indicati negli atti del giudizio in esame i modelli Megatron 345M, il Nemo GPT-3 10B, il Retro-48B, l’InstructRetro-48B, e il Nemotron-4 15B.[3] Il problema rappresentato dalle shadow libraries ha assunto di recente un’importanza centrale nelle controversie avviate dagli editori nei confronti dei gestori dei modelli di intelligenza artificiale i cui contorni sono stati tracciati brevemente in questo contributo: https://www.agendadigitale.eu/mercati-digitali/pirateria-libraria-e-ia-il-nuovo-saccheggio-globale-dei-contenuti/[4] Oltre agli effetti, già riscontrabili nel caso che ci occupa, dell’arresto della Corte Suprema degli Stati Uniti d’America del 25 marzo 2026 nel caso Cox Communications (qui un commento: https://www.agendadigitale.eu/mercati-digitali/pirateria-la-corte-suprema-usa-ridefinisce-la-responsabilita-dei-provider-internet/), entra in gioco nelle cause sull’uso dell’intelligenza artificiale l’eccezione del fair-use che i detentori dei modelli di IA pongono alla base delle proprie difese per legittimare l’uso che viene da essi fatto dei contenuti protetti dei terzi. Su questo argomento si traggono spunti qui: https://www.agendadigitale.eu/mercati-digitali/libri-e-ai-e-se-il-fair-use-diventasse-lalibi-della-pirateria-digitale/[5] Su questo tema si può leggere questo articolo che affronta il problema delle violazioni commesse con l’uso dei sistemi di IA in termini generali: https://www.agendadigitale.eu/mercati-digitali/ai-come-tutelare-la-sussistenza-degli-editori/[6] Il seguente articolo affronta la questione degli output che rigurgitano i contenuti di addestramento dei sistemi di IA: https://www.agendadigitale.eu/mercati-digitali/lai-rigurgita-contenuti-protetti-i-nodi-delle-cause-in-corso/[7] Le numerose questioni legali sottese all’impetuoso sviluppo della tecnologia digitale nel settore dell’intelligenza artificiale si sono intensificate nel tempo, come si può dedurre dai fatti illustrati nei seguenti brani:[8] Il “Contributory Infringement” è una forma di responsabilità indiretta per violazione di un diritto di proprietà intellettuale. Detta ipotesi di responsabilità aquiliana non è disciplinata direttamente dal Copyright Act ma è un principio originato dalle sentenze Grokster e Sony. La Corte Suprema U.S.A. ricomprende in tale accezione e attribuisce tale responsabilità a chiunque consapevolmente induca, determini o contribuisca materialmente a una violazione dei diritti d’autore, commesse da altri, pur non avendo il primo commesso o partecipato direttamente alla commissione di detta violazione. Il 25 marzo 2026 la Supreme Court U-S.A. ha ripreso e meglio definito i contorni di tale responsabilità come pure quelli di responsabilità vicaria. Si veda sul punto il seguente articolo: https://www.agendadigitale.eu/mercati-digitali/pirateria-la-corte-suprema-usa-ridefinisce-la-responsabilita-dei-provider-internet/ con il titolo “Pirateria, la Corte suprema Usa ridefinisce la responsabilità dei provider internet”[9] Una sintesi dei fatti di causa può essere rinvenuta in questi articoli:[10] La sopra ricordata sentenza della Corte Suprema U.S.A. si snoda prendendo le mosse da questa notazione testuale: ““Under the Copyright Act, “[a]nyone who violates any of the exclusive rights of the copyright owner . . . is an infringer of the copyright.” 17 U. S. C. §501(a)””.[11] Le violazioni ascritte dai ricorrenti alle parti convenute si sintetizzano così: 1) Violazione da parte di entrambi i convenuti consistono nell’avere: a) riprodotto per il tramite del protocollo BitTorrent i contenuti delle loro opere (Art. 17 U.S. Code §§ 106(1) e 501); riprodotto tramite sistemi di estrazione automatizzata dalla rete telematica dei contenuti dei ricorrenti (Art. 17 U.S. Code §§ 106(1) e 501); riprodotto ai fini dell’addestramento dei modelli di IA le opere dei titolari dei diritti (Art. 17 U.S. Code §§ 106(1) e 501); distribuito per il tramite del protocollo BitTorrent i contenuti protetti (Art. 17 U.S. Code §§ 106(1) e 501). Violazione da parte di Zuckerberg dei diritti d’autore degli autori ed editori attraverso la commissione del contributory infringement (Art. 17 U.S. Code §§ 106(1) e (3) e 501. Violazione da parte della sola Meta del DMCA, 17 U.S. Code § 1202(b) per avere rimosso e/o alterato le informazioni sul regime dei diritti apposte sulle opere tutelate.[12] Questo nel testo del ricorso al § 40.[13] Secondo quanto riportano i ricorrenti di questa causa, nella fase di addestramento iniziale dei modelli Llama, CCNet rappresentava il 67% (3,3 terabyte) dei contenuti a tal fine utilizzati, mentre il 15% (783 gigabyte) era fornito da “C4”.[14] L’operato di Z-Library e delle altre shadow libraries è brevemente descritto in questo articolo: https://www.agendadigitale.eu/mercati-digitali/fair-use-nellera-dellai-il-caso-meta-e-il-futuro-del-diritto-dautore-digitale/ dal titolo: “Fair use e AI: il caso Meta e il futuro del diritto d’autore digitale” e, per un’analisi prospettica del problema, in questo brano: https://www.agendadigitale.eu/mercati-digitali/ia-e-diritto-dautore-regole-e-accordi-per-il-futuro-dei-media-le-tendenze-in-atto/ dal titolo: “IA, regole e accordi per il futuro dei media: le tendenze in atto”.[15] Per una breve panoramica sul tema, si può leggere questo articolo: https://www.agendadigitale.eu/mercati-digitali/diritto-dautore-e-opere-create-dallai-prove-tecniche-di-tutela-le-questioni-aperte/ dal titolo: “Diritto d’autore e opere create dall’AI, prove tecniche di tutela: le questioni aperte”.[16] Sulla questione si possono trovare informazioni negli articoli richiamati nella nota N. 9 di questo lavoro.[17] Si fa riferimento alla normativa approvata dall’assemblea della California, ma mai varata per l’assenza della promulgazione da parte del Governatore dello Stato: https://www.agendadigitale.eu/mercati-digitali/leggi-sullia-il-veto-della-california-e-le-nuove-norme-italiane-che-inquietano-i-doppiatori/[18] La ALCS si oppone attualmente allo scraping tramite intelligenza artificiale, promuovendo il principio del preventivo consenso e quello di una retribuzione equa per gli autori. Per fornire una soluzione al problema, ALCS e i suoi partner, sostengono la Copyright Licensing Agency (CLA) nell’implementazione di accordi pionieristici di licenza collettiva estesa per le aziende che sviluppano modelli di intelligenza artificiale.

Shadow libraries e modelli generativi: il copyright è ancora difendibile? - Agenda Digitale

Shadow libraries e modelli generativi: il copyright è ancora difendibile? - Agenda Digitale

Other newsrooms on this story

Related reading

«L'intelligenza artificiale è come un lettore che aspira a diventare…

I modelli di Ai possono usare i libri. Vittoria in tribunale per Anthropic

Le prime cause sul copyright contro le big dell’intelligenza artificiale…

Intelligenza artificiale: Meta vince una causa, l’addestramento non viola la…

Anna's Archive travolta in tribunale: multa da 19,5 milioni e ordini di blocco…

Usa, l'IA potrà essere allenata con libri protetti da copyright - Notizie -…

Other newsrooms on this story

Related reading

«L'intelligenza artificiale è come un lettore che aspira a diventare…

I modelli di Ai possono usare i libri. Vittoria in tribunale per Anthropic

Le prime cause sul copyright contro le big dell’intelligenza artificiale…

Intelligenza artificiale: Meta vince una causa, l’addestramento non viola la…

Anna's Archive travolta in tribunale: multa da 19,5 milioni e ordini di blocco…

Usa, l'IA potrà essere allenata con libri protetti da copyright - Notizie -…