Spørg en dataetiker: Hvilke data er OK at bruge til at bede ChatGPT? - DATAVERSITET

Spørg en dataetiker: Hvilke data er OK at bruge til at bede ChatGPT? – DATAVERSITET

Kildeknude: 2511222

Millioner af mennesker bruger ChatGPT på regelmæssig basis for at hjælpe dem i både personlig og professionel kapacitet. Denne måneds spørgsmål centrerer sig om de data, der bruges til at bede ChatGPT. 

Vores læser, som delte, at de er en ESL-taler, vil gerne vide, om det er etisk at få ChatGPT til at oprette resuméer af information (specifikt kursusoversigter) for at hjælpe dem. De opsummerede oplysninger vil kun blive brugt til personlige formål og vil ikke blive delt online med andre mennesker. Hvis vi går ud i en mere generel situation, kan vi spørge...

Hvilke data er OK at bruge til at bede ChatGPT?

To små forbehold

Før du kommer til spørgsmålet, er det vigtigt at påpege sprogens magtdynamikker. Der er en enorm mængde privilegier, der svarer til at tale engelsk. Så meget teknologi og videnskabeligt arbejde er engelsk-centreret, og det kan stille folk, der ikke taler engelsk som deres første sprog, i en komparativ ulempe. Konteksten med at ville bruge et værktøj til at hjælpe med at "udjævne spillefeltet" skal inddrages i etiske overvejelser. Her er en ESL-talers oplevelse i ved hjælp af ChatGPT på måder, de har fundet gavnlige.

Den anden ting, jeg vil nævne, er, at jeg ikke er advokat, og denne klumme er ikke juridisk rådgivning. Oplysningerne i dette svar er udelukkende til uddannelsesformål. Spørgsmålet om ophavsret og generativ kunstig intelligens er et område i udvikling, og alle med specifikke spørgsmål bør søge rådgivning hos en juridisk professionel.

Ophavsretsmateriale og ChatGPT-prompter

Generelt bør du ikke bruge noget materiale, der krænker ophavsretten, i din prompt uden passende tilladelse. Dette er meget tydeligt i ChatGPT's betingelser for brug, hvor der står:

"Du må ikke bruge vores tjenester til ulovlige, skadelige eller misbrugende aktiviteter. For eksempel må du ikke...bruge vores tjenester på en måde, der krænker, uretmæssigt tilegner dig eller krænker nogens rettigheder."

Hvis du f.eks. skulle klippe og indsætte en del af et ophavsretligt beskyttet værk fra en artikel offentliggjort online, og du bad ChatGPT om at opsummere eller omformulere oplysningerne, ville du krænke ophavsretten, og du ville være utilfreds med ChatGPTs brugsvilkår . Hvis du stillede ChatGPT et spørgsmål, og du angav et afsnit med materiale fra et ophavsretligt beskyttet værk som baggrundskontekst i din prompt, ville du potentielt krænke ophavsretten. 

Dette er vigtigt at vide, fordi vi i nogle indstillinger kan bruge ophavsretligt beskyttet materiale som en del af rimelig brug med passende tilskrivninger. Den akademiske verden er bygget på denne bestemmelse! Men at bruge ophavsretligt beskyttet materiale i din PROMPT er ikke nødvendigvis det samme. Som forsker Anita Toh bemærker:

"Landskabet af copyright-love og fair brug i forhold til generative AI-værktøjer er stadig under udvikling. Mens tidligere forskere kunne stole på fair use-doktrinen for brugen af ​​ophavsretligt beskyttet materiale i deres forskningsarbejde, introducerer tilgængeligheden af ​​generative AI-værktøjer nu et ekstra lag af kompleksitet. Dette er især relevant, når AI'en selv kan gemme eller bruge data til at forfine sine egne algoritmer, hvilket potentielt kan betragtes som en overtrædelse af klausulen om ikke-kommerciel brug i fair use-doktrinen." (SRHE)

Jeg kan citere Anita Toh i denne artikel uden at krænke ophavsretten på grund af rimelig brug og korrekt tilskrivning. Jeg kan dog ikke tage det citat og bruge det i ChatGPT som en del af en prompt, fordi det potentielt ville være en krænkelse af hendes arbejde, som hun påpeger. 

Hvis du ønsker at blive ved siden af, juridisk og etisk, skal du ikke bede ChatGPT om at opsummere ophavsretligt beskyttet arbejde, som du ikke har passende tilladelse til at bruge.

Personlige eller fortrolige data 

En anden slags data, som du ikke bør bruge til at bede ChatGPT er personlig data, medmindre du har passende samtykker, meddelelser og aftaler på plads. Dette er også dækket af ChatGPTs brugsbetingelser. Personoplysninger dækker over en række oplysninger, der kan identificere en person. Det kan omfatte navne, adresser og andre identificerende oplysninger. 

Derudover bør fortrolige data ikke bruges i en prompt. Det kan være data, som du har en faglig eller personlig pligt til ikke at videregive. Det kan være oplysninger fra din arbejdsgiver eller en klient, eller det kan simpelthen være oplysninger, der er delt af en ven eller bekendt, som de har bedt dig om ikke at dele med nogen. Brug ikke disse oplysninger i en prompt! 

Husk, at ChatGPT-prompter involverer datadeling, og at data har potentiale til at ende op på steder uden for din kontrol.

Men er ChatGPT ikke bygget på ophavsretligt beskyttede træningsdata? 

Dette er et spørgsmål på mange millioner dollars om, hvorvidt reglerne for rimelig brug gælder i forbindelse med træningsdata. Det er fokus for retssager af forfattere som Sarah Silverman og publikationer som New York Times. Dette er ikke noget, du som slutbruger vil være i stand til at kontrollere, og de juridiske spørgsmål skal have tid til at blive afgjort. Men indtil videre fremgår det klart af de vilkår, som OpenAI har lagt ud, at du som bruger overtræder deres vilkår, hvis du krænker eller krænker en andens ophavsret i din prompt.

Hvad er OK at bruge i en prompt?

Du bør formulere spørgsmål eller instruktioner til en prompt med dine egne ord. Du kan også bruge materiale i din prompt, som du ejer ophavsretten til eller har passende kontraktmæssige tilladelser på plads til at bruge. For eksempel kunne jeg tage et script, jeg har skrevet, og bede ChatGPT om at omskrive det. I tilfælde af en ESL-højttaler kan du bruge dit eget arbejde eller din egen formulering i prompten og bede ChatGPT om at hjælpe dig med at omskrive eller omformulere det. Dette forudsætter, at du er med på at dele dine data med OpenAI i henhold til deres brugsbetingelser.

Med hensyn til det specifikke spørgsmål om at bruge kursusoversigter som input til ChatGPT for at få dem omformuleret for bedre forståelse, kan det være klogt at spørge kursusinstruktøren, om det er OK. De kunne give tilladelse eller tilbyde andre løsninger. Hvis dette var mit kursus, ville jeg sandsynligvis ikke have et problem med denne use case, da jeg ved, hvad der indgår i en typisk kursusoversigt. Hvis resultatet var en bedre forståelse for en studerende af kursets dispositionsmateriale, og de brugte dette værktøj til personlige formål, ville jeg slet ikke have et problem med det. 

Copyright og generative AI-output

Nogle mennesker søger at ophavsretligt beskytte det materiale, der er genereret af AI, formentlig fordi de måske ønsker at kommercialisere eller tjene penge på det. I øjeblikket er dette ikke noget, der er muligt, som illustreret af Thaler sag. Dette kan ændre sig, efterhånden som landskabet for ophavsret og generativ kunstig intelligens fortsætter med at udvikle sig.

Etisk kan vi tænke på, hvor meget unikt input vi har bidraget til et værk, og om det berettiger vores ophavsret til det pågældende værk eller ej. I øjeblikket, generativ AI beslutningstagere og brugere ser ud til at ville "få deres kage og også spise den." Der er modvilje mod at anerkende det store lager af ophavsretligt beskyttede data, der bruges til at skabe denne type AI, og aktiv modstand fra økonomisk kompenserende skabere for brugen af ​​deres data. I stedet hævder virksomheder, der laver generativ AI fair use bestemmelser om træningsdata. At så vende om og ville tillade ophavsret til materiale, der kommer ud af systemet, føles særligt uretfærdigt – i betragtning af uddannelsesdataens oprindelse.

Send mig dine spørgsmål!

Jeg ville kærlighed for at høre om dine datadilemmaer eller AI-etiske spørgsmål og dilemmaer. Du kan sende mig en besked på hello@ethicallyalignedai.com eller kontakt mig på LinkedIn. Jeg vil holde alle henvendelser fortrolige og fjerne alle potentielt følsomme oplysninger - så du er velkommen til at holde tingene på højt niveau og også anonyme. 

Tidsstempel:

Mere fra DATAVERSITET