AI di Meta utilizzata segretamente per addestramento su un database di pirateria
Meta e l’uso di LibGen nella formazione dell’IA
Meta è attualmente al centro di una controversia legale che coinvolge l’uso di un database noto per la pirateria, il Library Genesis (LibGen), per addestrare i propri modelli di intelligenza artificiale. Questo database, originato in Russia, è considerato una delle principali “shadow library” di libri piratati, ed è accusato di aver violato diritti d’autore. La causa legale, intitolata Kadrey et al. v. Meta Platforms, segna uno dei primissimi contenziosi relativi alla formazione delle IA da parte di compagnie tecnologiche.
Le dimostrazioni di come Meta avrebbe utilizzato LibGen sono emerse in seguito a un ordine del giudice Vince Chhabria del Tribunale Distrettuale degli Stati Uniti per il Distretto Settentrionale della California, il quale ha costretto l’azienda a rivelare documenti precedentemente non disponibili al pubblico. Tali documenti contengono affermazioni di dipendenti di Meta che confermano l’accesso a dati provenienti da LibGen, aggravando ulteriormente la posizione dell’azienda. Un dipendente di Meta ha espresso preoccupazione per l’uso di dati piratati su un laptop aziendale, mentre il CEO Mark Zuckerberg sembra essere stato coinvolto nelle discussioni sull’uso di tali materiali. Queste informazioni suggeriscono una pianificazione e una consapevolezza elevate riguardo al contesto pirata del dato impiegato per l’addestramento.
Meta ha anche ammesso, in documenti di ricerca, di aver utilizzato il dataset Books3, contenente una selezione di 196.000 libri scaricati da internet. Tuttavia, non aveva precedentemente divulgato di aver ottenuto dati direttamente da LibGen. La questione legale è ora di fondamentale importanza per stabilire se l’utilizzo di tali materiali per il training dell’IA sia legale o meno, con possibilità di impatti significativi sull’industria tecnologica.
Documenti legali unredacted e rivelazioni chiave
Recentemente, i tribunali hanno fatto luce su come Meta abbia gestito la sua formazione dell’intelligenza artificiale, svelando informazioni significative attraverso l’unredacting di documenti legali. Questi documenti, inizialmente oscurati per motivi di riservatezza, evidenziano che Meta ha attivamente considerato l’uso di LibGen per addestrare i propri modelli linguistici. Il giudice Vince Chhabria, del Tribunale Distrettuale degli Stati Uniti per il Distretto Settentrionale della California, ha criticato aspramente Meta per le sue precedenti richieste di oscuramento, definendole “preposterous” e sostenendo che non c’era motivo valido per mantenere segreti tali dettagli.
Una delle rivelazioni più scottanti emerse è una citazione interna riguardante la consapevolezza di un dipendente Meta, il quale ha espresso riserve sull’accesso ai dati di LibGen, affermando che “torrentare da un laptop corporate non sembra giusto 😃”. Questa frase solleva interrogativi sulla cultura e le pratiche aziendali all’interno di Meta, suggerendo che ci fosse un riconoscimento implicito che utilizzare dati piratati fosse eticamente problematico.
Inoltre, si è appreso che le discussioni sull’impiego di LibGen sono arrivate fino a Mark Zuckerberg, il CEO di Meta, il cui coinvolgimento indica che l’uso di dati piratati era considerato nei circoli più alti dell’azienda. Queste rivelazioni non solo ampliano il panorama legale attuale, ma pongono anche interrogativi più ampi sulle responsabilità delle aziende tecnologiche nell’uso di dati di dubbia provenienza.
Meta, infatti, non aveva mai rivelato pubblicamente di aver utilizzato direttamente dati di LibGen, limitandosi in precedenza a confermare l’uso di dataset più legittimi. La scoperta di queste informazioni potrebbe avere ripercussioni significative su come altre aziende del settore affrontano le stesse sfide legali e morali nel contesto della formazione delle loro tecnologie di intelligenza artificiale.
La posizione di Meta contro le accuse di violazione del copyright
Meta difende con veemenza la sua posizione riguardo alle accuse di violazione del copyright mosse nei suoi confronti. Nel contesto della causa “Kadrey et al. v. Meta Platforms”, l’azienda sostiene che l’utilizzo di materiali accessibili pubblicamente per addestrare i propri strumenti di intelligenza artificiale sia coperto dalla dottrina del “fair use”. Questa dottrina consente, in specifiche circostanze, di utilizzare opere protette da copyright senza autorizzazione, un argomento che Meta ha esaminato approfonditamente nei suoi documenti legali.
Gli avvocati di Meta hanno affermato che l’uso di dati provenienti da LibGen, oltre ad altri archivi di contenuti simili, rientra nei limiti consentiti dal “fair use”, in particolare per quanto riguarda l’analisi statistica e la generazione di espressioni originali. Secondo Meta, tale approccio non solo è legale, ma è anche fondamentale per sviluppare tecnologie di linguaggio avanzate che potrebbero beneficiare la società nel suo complesso.
Meta ha anche contestato la validità delle accuse stesse, dichiarando che le affermazioni dei querelanti sono infondate. Durante i procedimenti, l’azienda ha cercato di dimostrare che i reclamanti non avessero fornito evidenze adeguate per supportare le loro rivendicazioni di violazione del Digital Millennium Copyright Act (DMCA). Nella loro opposizione, i legali di Meta hanno argomentato che i querelanti erano già a conoscenza dell’utilizzo del dataset di LibGen e, pertanto, non avrebbero dovuto avere bisogno di ulteriori informazioni.
Infatti, il giudice Chhabria ha già acconsentito al rigetto di alcune delle accuse iniziali dai querelanti, indicando che la questione della rimozione di “informazioni sulla gestione dei diritti d’autore” richiedesse prove più forti di quelle presentate fino a quel momento. La sfida di Meta non si limita solo alla difesa legale, ma si estende anche a mantenere la propria reputazione pubblica mentre l’azienda affronta un crescente scrutinio da parte di autorità e consumatori sull’uso etico e legale dei dati nel campo dell’intelligenza artificiale.
La risposta dei querelanti e nuove accuse
I querelanti, composto da noti scrittori e figure di spicco, hanno reagito con determinazione dinanzi alle rivelazioni emergenti dalla causa nei confronti di Meta. In particolare, Richard Kadrey, Christopher Golden e Sarah Silverman sostengono che le nuove informazioni, rivelate dai documenti non redatti, dimostrano chiaramente l’intento della compagnia di utilizzare materiale protetto da copyright senza autorizzazione. Hanno citato prove che indicano un uso sistematico di LibGen come mezzo per alimentare i modelli di intelligenza artificiale della società, il che, secondo loro, costituisce una violazione diretta dei diritti d’autore.
In seguito all’emergere di queste evidenze, i querelanti hanno presentato una mozione per modificare la loro denuncia, in cui affermano che Meta non solo ha scaricato materiale protetto, ma ha anche contribuito a diffonderlo nel cyberspazio. Questa azione, nota nel gergo tecnico come “seeding”, implica che Meta ha condiviso deliberatamente contenuti piratati, trasformandosi così in un distributore del materiale stesso. Tale accusa intensifica la gravità della controversia legale, suggerendo che Meta ha oltrepassato i confini dell’uso equo e ha agito come un attore attivo nella pirateria di contenuti.
In aggiunta, i querelanti contestano il precedente rigetto di alcune delle loro affermazioni riguardo al Digital Millennium Copyright Act (DMCA), sostenendo che ora ci sono fondamenti più solidi per riproporre tali rivendicazioni. Rilevano che le ammissioni fatte da un rappresentante di Meta durante un’interrogazione, ove ha dichiarato sotto giuramento di aver caricato file piratati, possono costituire la base per ulteriori accuse. La loro difesa sottolinea la necessità di considerare il contesto delle informazioni rivelate, così come le implicazioni più ampie di come Meta e altre aziende tech gestiscono l’uso di opere protette nel contesto dell’intelligenza artificiale.
Questa escalation nella disputa legale potrebbe non solo influenzare il destino di Meta, ma anche avere ripercussioni significative su come le aziende del settore affrontano la questione dei copyright e dei diritti d’autore. La crescente attenzione a questi problemi giuridici potrebbe segnare l’inizio di una nuova era di responsabilità e trasparenza nelle pratiche di formazione delle tecnologie AI.
Implicazioni legali per l’industria tecnologica e l’IA
Le recenti rivelazioni riguardo all’uso di LibGen da parte di Meta per l’addestramento dei suoi modelli di intelligenza artificiale portano con sé enormi implicazioni per l’intera industria tecnologica. La causa “Kadrey et al. v. Meta Platforms” rappresenta un cruciale precedente legale che potrebbe ridefinire la modalità di utilizzo dei materiali protetti da copyright per l’addestramento delle intelligenze artificiali. Se il tribunale dovesse stabilire che tali pratiche violano i diritti d’autore, ciò potrebbe innescare una serie di nuove cause legali che riguardano altre aziende tecnologiche impegnate nello sviluppo di IA.
La decisione finale di questo caso non solo potrebbe influenzare Meta, ma segnerebbe anche un punto di riferimento determinate per altre aziende del settore. La questione centrale è se le dottrine del “fair use” possano effettivamente tutelare l’uso di materiali di dubbia provenienza, soprattutto alla luce delle nuove tecnologie e metodologie di apprendimento automatico che caratterizzano il panorama dell’IA di oggi.
Inoltre, la crescente attenzione legale attorno alle pratiche di Meta potrebbe spingere altre aziende a rivedere le loro strategie in materia di acquisizione dei dati. Ciò include una maggiore considerazione della provenienza dei dati e dei potenziali rischi legali associati all’uso di fonti non autentiche. L’industria potrebbe necessitare di stabilire nuove linee guida e standard che garantiscano un approccio etico e legale nell’impiego delle opere protette.
Alla luce delle crescenti tensioni tra tecnologia, diritti d’autore e responsabilità legale, il settore potrebbe anche trovarsi a fronteggiare un cambiamento significativo nelle legislazioni e nelle normative esistenti, spingendo verso una maggiore regolamentazione dell’uso dei dati e delle pratiche di addestramento delle intelligenze artificiali.