New AI Classifier For Indicating AI-written Text

Ponovno objavil Platon

Spremljevalci: 0

Predstavljamo klasifikator, usposobljen za razlikovanje med besedilom, napisanim z umetno inteligenco, in besedilom, ki ga je napisal človek.

Usposobili smo klasifikator za razlikovanje med besedilom, ki ga je napisal človek, in besedilom, ki ga je napisal AI različnih ponudnikov. Čeprav je nemogoče zanesljivo odkriti vse besedilo, napisano z umetno inteligenco, verjamemo, da lahko dobri klasifikatorji ublažijo napačne trditve, da je besedilo, ki ga je ustvarila umetna inteligenca, napisal človek: na primer, avtomatizirane dezinformacijske kampanje, uporabo orodij AI za akademsko nepoštenost in pozicioniranje klepetalnega robota AI kot človeka.

Naš klasifikator ni povsem zanesljiv. V naših ocenah »izzivnega niza« angleških besedil naš klasifikator pravilno identificira 26 % besedila, napisanega z umetno inteligenco (resnično pozitivnih), kot »verjetno napisanega z umetno inteligenco«, medtem ko nepravilno označi besedilo, napisano z umetno inteligenco, 9 % besedila. čas (lažni pozitivni rezultati). Zanesljivost našega klasifikatorja se običajno izboljša, ko se poveča dolžina vhodnega besedila. V primerjavi z našimi prej objavljen klasifikator, je ta novi klasifikator bistveno bolj zanesljiv za besedilo iz novejših sistemov AI.

Ta klasifikator je javno dostopen, da bi dobili povratne informacije o tem, ali so nepopolna orodja, kot je to, uporabna. Naše delo pri odkrivanju besedila, ustvarjenega z umetno inteligenco, se bo nadaljevalo in upamo, da bomo v prihodnosti delili izboljšane metode.

Preizkusite naš klasifikator dela v teku tudi sami:

Omejitve

Naš klasifikator ima številne pomembne omejitve. Ne sme se uporabljati kot primarno orodje za odločanje, temveč kot dopolnilo k drugim metodam določanja vira besedila.

Klasifikator je zelo nezanesljiv pri kratkih besedilih (pod 1,000 znakov). Tudi daljša besedila klasifikator včasih nepravilno označi.
Včasih bo naš klasifikator besedilo, ki ga je napisal človek, nepravilno, a samozavestno označil kot besedilo, ki ga je napisal AI.
Priporočamo uporabo klasifikatorja samo za angleško besedilo. V drugih jezikih deluje bistveno slabše in je nezanesljiv glede kode.
Besedila, ki je zelo predvidljivo, ni mogoče zanesljivo identificirati. Na primer, nemogoče je napovedati, ali je seznam prvih 1,000 praštevil napisala umetna inteligenca ali ljudje, ker je pravilen odgovor vedno enak.
Besedilo, napisano z umetno inteligenco, je mogoče urejati, da se izogne klasifikatorju. Klasifikatorje, kot je naš, je mogoče posodobiti in ponovno usposobiti na podlagi uspešnih napadov, vendar ni jasno, ali ima odkrivanje dolgoročno prednost.
Znano je, da so klasifikatorji, ki temeljijo na nevronskih mrežah, slabo kalibrirani zunaj svojih podatkov o usposabljanju. Za vnose, ki se zelo razlikujejo od besedila v našem naboru za usposabljanje, je klasifikator včasih zelo prepričan v napačno napoved.

Usposabljanje klasifikatorja

Naš klasifikator je jezikovni model, natančno nastavljen na naboru podatkov parov človeško napisanega besedila in besedila, napisanega z umetno inteligenco, o isti temi. Ta nabor podatkov smo zbrali iz različnih virov, za katere menimo, da so jih napisali ljudje, kot so podatki pred usposabljanjem in človeške predstavitve pozivov, poslanih InstructGPT. We divided each text into a prompt and a response. On these prompts we generated responses from a variety of different language models trained by us and other organizations. For our web app, we adjust the confidence threshold to keep the false positive rate very low; in other words, we only mark text as likely AI-written if the classifier is very confident.

Vpliv na vzgojitelje in poziv k prispevku

Zavedamo se, da je bila identifikacija besedila, napisanega z umetno inteligenco, pomembna točka razprave med učitelji, prav tako pomembno pa je prepoznavanje omejitev in vplivov besedilnih klasifikatorjev, ki jih ustvari umetna inteligenca, v razredu. Razvili smo a predhodni vir o uporabi ChatGPT za učitelje, ki opisuje nekatere uporabe in s tem povezane omejitve in premisleke. Čeprav je ta vir osredotočen na učitelje, pričakujemo, da bodo naš klasifikator in z njim povezana orodja za klasifikatorje vplivali na novinarje, raziskovalce napačnih/napačnih informacij in druge skupine.

Sodelujemo z učitelji v ZDA, da bi izvedeli, kaj vidijo v svojih učilnicah, in razpravljali o zmožnostih in omejitvah ChatGPT, in še naprej bomo širili naš doseg, ko se bomo učili. To so pomembni pogovori, saj je del našega poslanstva varna uvedba velikih jezikovnih modelov v neposrednem stiku s prizadetimi skupnostmi.

Če te težave neposredno zadevajo vas (vključno z učitelji, skrbniki, starši, učenci in ponudniki izobraževalnih storitev, vendar ne omejeno nanje), nam pošljite povratne informacije z ta obrazec. Neposredne povratne informacije o predhodni vir je v pomoč, pozdravljamo pa tudi vse vire, ki jih izobraževalci razvijajo ali so se jim zdeli koristni (npr. smernice za tečaje, kodeks časti in posodobitve politik, interaktivna orodja, programi opismenjevanja z umetno inteligenco).