Δεν υπάρχει αξιόπιστος τρόπος ανίχνευσης κειμένου που δημιουργείται από AI, οι boffins αναστενάζουν

Δεν υπάρχει αξιόπιστος τρόπος ανίχνευσης κειμένου που δημιουργείται από AI, οι boffins αναστενάζουν

Κόμβος πηγής: 2024308

Η δημοτικότητα της λέξης σαλάτας που παρασκευάζεται από μεγάλα γλωσσικά μοντέλα (LLM) όπως το ChatGPT του OpenAI, το Bard της Google και το LLaMa του Meta έχει ωθήσει τους ακαδημαϊκούς να αναζητήσουν τρόπους ανίχνευσης κειμένου που δημιουργείται από μηχανή.

Δυστυχώς, τα υπάρχοντα συστήματα ανίχνευσης μπορεί να μην είναι πολύ καλύτερα από την ανατροπή ενός νομίσματος, αυξάνοντας την πιθανότητα να καταναλώνουμε αντίγραφο που αποτελείται από στατιστικά στοιχεία ως συνέπεια της κατανάλωσης περιεχομένου στο διαδίκτυο.

Πέντε επιστήμονες υπολογιστών από το Πανεπιστήμιο του Μέριλαντ στις ΗΠΑ – οι Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang και Soheil Feizi – εξέτασαν πρόσφατα την ανίχνευση κειμένου που δημιουργήθηκε από μεγάλα γλωσσικά μοντέλα.

Τα ευρήματά τους, αναλυτικά σε έγγραφο με τίτλο Μπορεί να εντοπιστεί αξιόπιστα το κείμενο που δημιουργείται από AI;, μπορεί να προβλεφθεί χρησιμοποιώντας τον νόμο των επικεφαλίδων του Betterridge: κάθε επικεφαλίδα που τελειώνει σε ερωτηματικό μπορεί να απαντηθεί με τη λέξη όχι.

επικαλούμενη διάφοροι δήθεν ανιχνευτές του κειμένου που δημιουργείται από LLM, οι boffins παρατηρούν, "Σε αυτό το έγγραφο, δείχνουμε τόσο θεωρητικά όσο και εμπειρικά, ότι αυτοί οι ανιχνευτές τελευταίας τεχνολογίας δεν μπορούν να ανιχνεύσουν αξιόπιστα τις εξόδους LLM σε πρακτικά σενάρια".

Ανίχνευση εξόδου LLM έτσι, όπως Παζλ CAPTCHA [PDF], φαίνεται προορισμένο να αποτύχει καθώς τα μοντέλα μηχανικής μάθησης συνεχίζουν να βελτιώνονται και να γίνονται ικανά να μιμούνται την ανθρώπινη απόδοση.

Οι boffins υποστηρίζουν ότι η άναρχη χρήση αυτών των μοντέλων – τα οποία τώρα ενσωματώνονται ευρέως χρησιμοποιούμενες εφαρμογές από μεγάλες εταιρείες τεχνολογίας – έχει τη δυνατότητα να οδηγήσει σε ανεπιθύμητες συνέπειες, όπως εξελιγμένα ανεπιθύμητα μηνύματα, παραπλανητικές ψευδείς ειδήσεις, ανακριβείς περιλήψεις εγγράφων και λογοκλοπή.

Αποδεικνύεται απλώς η παράφραση της παραγωγής κειμένου ενός LLM – κάτι με το οποίο μπορεί να γίνει πρόγραμμα αντικατάστασης λέξεων – είναι συχνά αρκετό για να αποφύγει τον εντοπισμό. Αυτό μπορεί να υποβαθμίσει την ακρίβεια ενός ανιχνευτή από μια γραμμή βάσης 97 τοις εκατό σε οπουδήποτε από 80 τοις εκατό σε 57 τοις εκατό - όχι πολύ καλύτερη από μια ρίψη νομίσματος.

«Εμπειρικά, δείχνουμε ότι οι επιθέσεις παράφρασης, όπου εφαρμόζεται ένας ελαφρύς παραφραστής πάνω από το μοντέλο δημιουργίας κειμένου, μπορούν να σπάσουν μια ολόκληρη σειρά ανιχνευτών, συμπεριλαμβανομένων αυτών που χρησιμοποιούν τα σχήματα υδατογράφησης, καθώς και ανιχνευτές που βασίζονται σε νευρωνικά δίκτυα και μηδενική λήψη ταξινομητές», εξήγησαν οι ερευνητές στο έγγραφό τους.

Σε ένα μήνυμα ηλεκτρονικού ταχυδρομείου στο Το μητρώο, ο Soheil Feizi, επίκουρος καθηγητής επιστήμης υπολογιστών στο UMD College Park και ένας από τους συν-συγγραφείς της εργασίας, εξήγησε, «Το ζήτημα της υδατογράφησης κειμένου είναι ότι αγνοεί την περίπλοκη φύση της διανομής κειμένου. Ας υποθέσουμε ότι η ακόλουθη πρόταση S που περιέχει παραπληροφόρηση δημιουργείται από ένα μοντέλο τεχνητής νοημοσύνης και είναι «υδατογραφημένη», που σημαίνει ότι περιέχει κάποιες κρυφές υπογραφές, ώστε να μπορούμε να εντοπίσουμε ότι δημιουργείται από το AI.»

  • S: Ο Παγκόσμιος Οργανισμός Υγείας έκανε μια συγκλονιστική δήλωση, ότι το εμβόλιο είναι αναποτελεσματικό, γιατί δεν εμποδίζει τους ανθρώπους να μολυνθούν, πράγμα που σημαίνει ότι είναι άχρηστο.

"Αυτό δημιουργήθηκε στην πραγματικότητα από ένα υδατογραφημένο μοντέλο μεγάλης γλώσσας OPT-1.3B", είπε ο Feizi. "Σκεφτείτε τώρα μια παραφρασμένη εκδοχή της παραπάνω πρότασης:"

  • Το εμβόλιο είναι άχρηστο γιατί δεν εμποδίζει τους ανθρώπους να μολύνουν, σύμφωνα με τον Παγκόσμιο Οργανισμό Υγείας.

«Περιέχει την ίδια παραπληροφόρηση, αλλά αυτό δεν εντοπίζεται από τη μέθοδο υδατογράφησης», είπε η Φεϊζή.

«Αυτό το παράδειγμα υποδεικνύει ένα θεμελιώδες ζήτημα της υδατοσήμανσης κειμένου: εάν ο αλγόριθμος υδατογραφήματος ανιχνεύσει όλες τις άλλες προτάσεις με το ίδιο νόημα με μια δημιουργημένη από τεχνητή νοημοσύνη, τότε θα έχει ένα μεγάλο σφάλμα τύπου Ι: θα ανιχνεύσει πολλές προτάσεις που έχουν γραφτεί από άνθρωπο. ως δημιουργημένα από AI· μπορεί να κάνει πολλές ψευδείς κατηγορίες για λογοκλοπή».

«Από την άλλη πλευρά», πρόσθεσε ο Feizi, «αν ο αλγόριθμος υδατογραφήματος περιορίζεται μόνο σε κείμενο που δημιουργείται από τεχνητή νοημοσύνη, τότε μια απλή επίθεση παράφρασης, όπως δείξαμε στην εργασία μας, μπορεί να διαγράψει τις υπογραφές υδατογραφήματος που σημαίνει ότι μπορεί να δημιουργήσει έναν μεγάλο τύπο -II σφάλμα. Αυτό που δείξαμε είναι ότι δεν είναι δυνατό να υπάρχουν σφάλματα χαμηλού τύπου Ι και ΙΙ ταυτόχρονα σε πρακτικά σενάρια».

Και η αντιστροφή της εφαρμογής της παράφρασης σε ένα δεδομένο δείγμα κειμένου δεν βοηθά πραγματικά.

«Ας υποθέσουμε ότι είναι δυνατή η αντιστροφή της παράφρασης», είπε ο Vinu Sankar Sadasivan, διδακτορικός φοιτητής πληροφορικής στο UMD College Park και ένας από τους συγγραφείς της εργασίας, σε ένα email στο Το μητρώο. «Υπάρχει ένα κρίσιμο πρόβλημα σε αυτό για την ανίχνευση. Ένας ανιχνευτής θα πρέπει να προσπαθήσει να αντιστρέψει την παράφραση μόνο εάν η πρόταση δημιουργείται πραγματικά από AI. Διαφορετικά, η αντιστροφή της παράφρασης θα μπορούσε να οδηγήσει σε ψευδή ανίχνευση ανθρώπινου κειμένου ως δημιουργημένου από AI."

Ο Sadasivan είπε ότι υπάρχουν πολλές παραλλαγές στον τρόπο με τον οποίο μπορεί να παραφραστεί μια πρόταση, επομένως δεν είναι δυνατό να αντιστραφεί η διαδικασία, ιδιαίτερα αν δεν γνωρίζετε την πηγή του αρχικού κειμένου.

Εξήγησε ότι η υδατογράφηση κειμένου είναι πιο δύσκολη από την υδατοσήμανση εικόνων. Απαιτεί την παραγωγή έργων σε ένα συγκεκριμένο μοτίβο που είναι ανεπαίσθητο από τον άνθρωπο για να βοηθήσει στην ανίχνευση.

"Αυτά τα μοτίβα μπορούν εύκολα να αφαιρεθούν χρησιμοποιώντας επιθέσεις παράφρασης που προτείνουμε στο έγγραφό μας", δήλωσε ο Sadasivan. "Εάν δεν μπορούν να είναι, είναι πολύ πιθανό ένα κείμενο που έχει γραφτεί από άνθρωπο να ανιχνευθεί ψευδώς ως υδατογραφημένο από έναν ανιχνευτή που βασίζεται σε υδατογράφηση."

Τα αποτελέσματά μας υποδεικνύουν την αδυναμία προβλημάτων ανίχνευσης κειμένου που δημιουργείται από AI σε πρακτικά σενάρια

Γίνεται χειρότερο. Τα boffins περιγράφουν «ένα θεωρητικό αποτέλεσμα αδυναμίας που δείχνει ότι για ένα αρκετά καλό γλωσσικό μοντέλο, ακόμη και ο καλύτερος δυνατός ανιχνευτής μπορεί να αποδώσει οριακά καλύτερα από έναν τυχαίο ταξινομητή».

Ερωτηθείς εάν υπάρχει δρόμος για μια πιο αξιόπιστη μέθοδο ανίχνευσης κειμένου που δημιουργείται από LLM, ο Feizi είπε ότι δεν υπάρχει.

«Τα αποτελέσματά μας δείχνουν την αδυναμία προβλημάτων ανίχνευσης κειμένου που δημιουργείται από AI σε πρακτικά σενάρια», εξήγησε ο Feizi. «Οπότε η σύντομη απάντηση είναι, δυστυχώς, όχι».

Οι συγγραφείς παρατηρούν επίσης ότι τα LLM που προστατεύονται από συστήματα υδατογράφησης μπορεί να είναι ευάλωτα σε επιθέσεις πλαστογράφησης μέσω των οποίων κακόβουλα άτομα θα μπορούσαν να συμπεράνουν υπογραφές υδατογράφησης και να τις προσθέσουν στο κείμενο που δημιουργείται για να κατηγορηθεί το άτομο που δημοσιεύει αυτό το κείμενο ψευδώς ως λογοκλοπή ή spammer.

«Πιστεύω ότι πρέπει να μάθουμε να ζούμε με το γεγονός ότι μπορεί να μην είμαστε ποτέ σε θέση να πούμε με αξιοπιστία εάν ένα κείμενο είναι γραμμένο από άνθρωπο ή τεχνητή νοημοσύνη», είπε ο Feizi. «Αντίθετα, δυνητικά μπορούμε να επαληθεύσουμε την «πηγή» του κειμένου μέσω άλλων πληροφοριών. Για παράδειγμα, πολλές πλατφόρμες κοινωνικής δικτύωσης αρχίζουν να επαληθεύουν ευρέως λογαριασμούς. Αυτό μπορεί να κάνει πιο δύσκολη τη διάδοση της παραπληροφόρησης που δημιουργείται από την τεχνητή νοημοσύνη». ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο