Forfattere angir opphavsrettssøksmål for å torpedere Nvidias NeMo

Forfattere angir opphavsrettssøksmål for å torpedere Nvidias NeMo

Kilde node: 2511830

Nvidia er den siste teknologigiganten som møter påstander om at de brukte opphavsrettsbeskyttede verk for å trene AI-modeller uten å ha fått tillatelse fra forfatterne.

Et foreslått gruppesøksmål Søksmålet [PDF] arkivert mot GPU supremo i San Francisco fredag ​​8. mars hevder at selskapet brukte opphavsrettsbeskyttet materiale for å trene store språkmodeller i Megatron-biblioteket for sine NeMo generativt AI-rammeverk.

Klagen ble sendt inn av tre forfattere, Abdi Nazemian, Brian Keene og Stewart O'Nan, som hevder at bøkene de skrev var blant materialet som ble brukt til å trene Megatron LLM-ene.

Fra rettsarkivet ser det ut til at Nvidia ikke er anklaget for åpenlyst å kopiere verket til forfatterne selv, men i stedet bruke et datasett for å trene Megatron-modellene som var kjent for å inneholde en rekke ulisensierte opphavsrettsbeskyttede verk.

Søksmålet refererer spesifikt til modeller som Nvidia ga ut i september 2022, nemlig NeMo Megatron-GPT 1.3B, NeMo Megatron-GPT 5B, NeMo Megatron-GPT 20B og NeMo Megatron-T5 3B.

Disse er vert på nettstedet som drives av AI-antrekk Klemme ansiktet, sammen med informasjon om hver modell, inkludert opplæringsdatasettet. I dette tilfellet sier informasjonen at modellene ble trent på «The Pile»-datasettet utarbeidet av EleutherAI.

Bunken er beskrevet som "et 800 GB datasett med mangfoldig tekst for språkmodellering", og en av dens bestanddeler er en samling bøker kalt Books3, som inneholder innholdet i rundt 196,640 XNUMX bøker, inkludert de som er laget av de tre forfatterne.

I følge rettsarkivet var Books3-datasettet tilgjengelig separat på Hugging Face frem til oktober 2023, da det ble fjernet fordi det "er nedlagt og ikke lenger tilgjengelig på grunn av rapportert brudd på opphavsretten."

Forfatterne ønsker at saken skal fortsette som et gruppesøksmål, der de selv fungerer som klasserepresentanter, og ber om en juryrettssak og om erstatning for de påståtte bruddene på opphavsretten deres.

I en uttalelse sendt til Registeret, sa en Nvidia-talsperson: "Vi respekterer rettighetene til alle innholdsskapere og tror vi har laget NeMo i full overensstemmelse med lov om opphavsrett."

Dette er ikke det første tilfellet av et AI-selskap som blir saksøkt for anklager om brudd på opphavsretten angående dataene som brukes til å trene AI-modeller. I desember i fjor lanserte The New York Times en sak mot Microsoft og OpenAI over påstander om at paret hadde brukt artiklene sine uten tillatelse til å bygge ChatGPT og lignende modeller.

Den saken ble kanskje gjort mer interessant av OpenAIs påstand i januar om at det ville være det «umulig» å bygge nevrale nettverk i toppskiktet som møter dagens behov uten å bruke folks opphavsrettsbeskyttede verk.

I mellomtiden starter Nvidia fortsatt AI-pumpen med kunngjøringen av en ny profesjonell sertifisering i generativ AI for å hjelpe utviklere med å etablere teknisk troverdighet på dette området.

Sett til å bli tilgjengelig for å falle sammen med den Santa Clara-baserte gigantens GTC-arrangement senere denne måneden, profesjonelt sertifiseringsprogram vil tilby to generative AI-akkrediteringer på assosiasjonsnivå, med fokus på ferdigheter i store språkmodeller og multimodale arbeidsflytferdigheter. ®

Tidstempel:

Mer fra Registeret