În ultimii ani, companii precum Google, Meta, Anthropic și OpenAI au susținut că modelele lor de limbaj nu stochează lucrări cu drepturi de autor în memoria lor.
În schimb, companiile susțin că aceste lucrări au fost folosite doar pentru a antrena AI, scrie Futurism.
Această distincție a fost extrem de importantă în protejarea companiilor de obstacolele legale.
Dar se pare că adevărul e diferit față de cel prezentat public, susțin experții.
Descoperirea care ar putea zgudui industria AI
Drepturile de autor reprezintă o formă de proprietate intelectuală menită să protejeze operele originale și pe creatorii lor. Conform Legii dreptului de autor din SUA din 1976, titularul drepturilor de autor are dreptul exclusiv de a „reproduce, adapta, distribui, interpreta public și afișa public opera”.
Însă regula de utilizare echitabilă prevede că alte persoane pot folosi materiale protejate prin drepturi de autor în scopuri precum critica, jurnalismul și cercetarea.
Aceasta a fost apărarea industriei AI în instanță împotriva acuzațiilor de încălcare a drepturilor de autor. CEO-ul OpenAI, Sam Altman, a mers până la a afirma că „totul s-ar termina” dacă industriei nu i se permite să folosească liber date protejate prin drepturi de autor pentru a-și antrena modelele.
Deținătorii de drepturi acuză companiile de AI că își antrenează modelele pe opere piratate și protejate prin drepturi de autor. Astfel, le monetizează fără a remunera corect autorii, jurnaliștii și artiștii. Bătălia juridică durează de ani de zile și a dus deja la o înțelegere importantă.
Acum însă, un nou studiu extrem de critic ar putea pune companiile AI în pericol. În cadrul acestuia, cercetători de la Stanford și Yale au găsit dovezi convingătoare că modelele AI copiază efectiv aceste date, nu „învață” din ele.
Modelele AI ar copia operele protejate prin drepturile de autor
Mai exact, 4 modele LLM de top, GPT-4.1 de la OpenAI, Gemini 2.5 Pro de la Google, Grok 3 de la xAI și Claude 3.7 Sonnet de la Anthropic, au reprodus fără probleme fragmente lungi din opere cunoscute și protejate, cu un grad uluitor de acuratețe.
Cercetătorii au constatat că Claude a generat „cărți întregi aproape cuvânt cu cuvânt”, cu o rată de acuratețe de 95.8%. Gemini a reprodus romanul Harry Potter și Piatra Filozofală cu o acuratețe de 76.8%, în timp ce Claude a reprodus 1984 de George Orwell cu o acuratețe de peste 94% comparativ cu materialul de referință original, care încă protejat prin drepturi de autor.
„Deși mulți cred că modelele LLM nu rețin mare parte din datele lor de antrenament, cercetări recente arată că volume semnificative de text protejat prin drepturi de autor pot fi extrase din modele,” au scris cercetătorii.
Unele dintre aceste reproduceri au necesitat ca cercetătorii să „spargă” modelele folosind o tehnică numită Best-of-N. Aceasta presupune bombardarea AI-ului cu mai multe variații ale aceleiași solicitări.
Astfel de metode au fost deja folosite de OpenAI pentru a se apăra într-un proces intentat de The New York Times. Avocații companiei au susținut că „oamenii obișnuiți nu folosesc produsele OpenAI în acest mod”.
Potrivit lui Alex Reisner, de la The Atlantic, rezultatele subminează și mai mult argumentul industriei AI potrivit căruia modelele AI „învață” din aceste texte, în loc să stocheze informația și să o redea ulterior. E o dovadă care „ar putea reprezenta o răspundere juridică masivă pentru companiile de AI” și „ar putea costa industria miliarde de dolari în hotărâri privind încălcarea drepturilor de autor”.
Industria continuă să susțină că, din punct de vedere tehnic, nu replică opere protejate. În 2023, Google a declarat Oficiului pentru Drepturi de Autor din SUA că „nu există nicio copie a datelor de antrenament, fie ele text, imagini sau alte formate, prezentă în modelul propriu-zis”.
În același an, OpenAI a transmis aceluiași organism că „modelele sale nu stochează copii ale informațiilor din care învață”.