Nuovo classificatore AI per indicare il testo scritto dall'IA

Ripubblicato da Platone

Seguaci: 0

Stiamo lanciando un classificatore addestrato a distinguere tra testo scritto dall'intelligenza artificiale e testo scritto dall'uomo.

Abbiamo addestrato un classificatore per distinguere tra testo scritto da un essere umano e testo scritto da IA di una varietà di fornitori. Sebbene sia impossibile rilevare in modo affidabile tutto il testo scritto dall'intelligenza artificiale, riteniamo che i buoni classificatori possano fornire mitigazioni per false affermazioni secondo cui il testo generato dall'intelligenza artificiale è stato scritto da un essere umano: ad esempio, l'esecuzione campagne di disinformazione automatizzate, utilizzando strumenti di intelligenza artificiale per la disonestà accademica e posizionando un chatbot di intelligenza artificiale come un essere umano.

Il nostro classificatore non è completamente affidabile. Nelle nostre valutazioni su un "insieme di sfide" di testi in inglese, il nostro classificatore identifica correttamente il 26% del testo scritto dall'IA (veri positivi) come "probabilmente scritto dall'IA", mentre etichetta erroneamente il testo scritto dall'uomo come il 9% scritto dall'IA il tempo (falsi positivi). L'affidabilità del nostro classificatore in genere migliora con l'aumentare della lunghezza del testo di input. Rispetto al nostro classificatore rilasciato in precedenza, questo nuovo classificatore è significativamente più affidabile sul testo proveniente da sistemi di intelligenza artificiale più recenti.

Stiamo rendendo questo classificatore pubblicamente disponibile per ottenere feedback sull'utilità di strumenti imperfetti come questo. Il nostro lavoro sul rilevamento del testo generato dall'intelligenza artificiale continuerà e speriamo di condividere metodi migliorati in futuro.

Prova tu stesso il nostro classificatore work-in-progress:

Limiti

Il nostro classificatore ha una serie di limitazioni importanti. Non dovrebbe essere utilizzato come strumento decisionale primario, ma invece come complemento ad altri metodi per determinare la fonte di un pezzo di testo.

Il classificatore è molto inaffidabile su testi brevi (sotto i 1,000 caratteri). Anche i testi più lunghi a volte vengono etichettati in modo errato dal classificatore.
A volte il testo scritto dall'uomo verrà etichettato in modo errato ma sicuro come scritto dall'intelligenza artificiale dal nostro classificatore.
Si consiglia di utilizzare il classificatore solo per il testo inglese. Funziona significativamente peggio in altre lingue ed è inaffidabile sul codice.
Un testo molto prevedibile non può essere identificato in modo affidabile. Ad esempio, è impossibile prevedere se un elenco dei primi 1,000 numeri primi sia stato scritto dall'IA o dall'uomo, perché la risposta corretta è sempre la stessa.
Il testo scritto da AI può essere modificato per eludere il classificatore. Classificatori come il nostro possono essere aggiornati e riaddestrati in base agli attacchi riusciti, ma non è chiaro se il rilevamento abbia un vantaggio a lungo termine.
È noto che i classificatori basati su reti neurali sono scarsamente calibrati al di fuori dei loro dati di addestramento. Per input che sono molto diversi dal testo nel nostro set di addestramento, il classificatore a volte è estremamente fiducioso in una previsione errata.

Addestrare il classificatore

Il nostro classificatore è un modello linguistico messo a punto su un set di dati di coppie di testo scritto dall'uomo e testo scritto dall'intelligenza artificiale sullo stesso argomento. Abbiamo raccolto questo set di dati da una varietà di fonti che riteniamo siano state scritte da esseri umani, come i dati di pre-addestramento e le dimostrazioni umane sui prompt inviati a Istruisci GPT. Abbiamo diviso ogni testo in un prompt e una risposta. Su questi suggerimenti abbiamo generato risposte da una varietà di diversi modelli linguistici addestrati da noi e da altre organizzazioni. Per la nostra app Web, regoliamo la soglia di confidenza per mantenere il tasso di falsi positivi molto basso; in altre parole, contrassegniamo il testo come probabilmente scritto da AI solo se il classificatore è molto sicuro.

Impatto sugli educatori e richiesta di input

Riconosciamo che l'identificazione del testo scritto dall'intelligenza artificiale è stato un importante punto di discussione tra gli educatori, e altrettanto importante è riconoscere i limiti e gli impatti dei classificatori di testo generati dall'intelligenza artificiale in classe. Abbiamo sviluppato un risorsa preliminare sull'uso di ChatGPT per gli educatori, che delinea alcuni degli usi e le relative limitazioni e considerazioni. Sebbene questa risorsa sia incentrata sugli educatori, ci aspettiamo che il nostro classificatore e gli strumenti di classificazione associati abbiano un impatto su giornalisti, ricercatori di mis/disinformazione e altri gruppi.

Ci stiamo impegnando con gli educatori negli Stati Uniti per sapere cosa stanno vedendo nelle loro classi e per discutere delle capacità e dei limiti di ChatGPT, e continueremo ad ampliare il nostro raggio d'azione man mano che apprendiamo. Queste sono conversazioni importanti da avere poiché parte della nostra missione è distribuire modelli linguistici di grandi dimensioni in modo sicuro, a diretto contatto con le comunità interessate.

Se sei direttamente interessato da questi problemi (inclusi, a titolo esemplificativo ma non esaustivo, insegnanti, amministratori, genitori, studenti e fornitori di servizi educativi), inviaci un feedback utilizzando questa forma. Feedback diretto sul risorsa preliminare è utile e accogliamo con favore anche qualsiasi risorsa che gli educatori stanno sviluppando o hanno trovato utile (ad esempio, linee guida del corso, codice d'onore e aggiornamenti delle politiche, strumenti interattivi, programmi di alfabetizzazione AI).