ไม่มีวิธีที่เชื่อถือได้ในการตรวจจับข้อความที่สร้างขึ้นโดย AI บอฟฟินถอนหายใจ

ไม่มีวิธีที่เชื่อถือได้ในการตรวจจับข้อความที่สร้างขึ้นโดย AI บอฟฟินถอนหายใจ

โหนดต้นทาง: 2024308

ความนิยมของเวิร์ดสลัดที่เตรียมโดยโมเดลภาษาขนาดใหญ่ (LLM) เช่น ChatGPT ของ OpenAI, Bard ของ Google และ LLaMa ของ Meta ทำให้นักวิชาการมองหาวิธีตรวจจับข้อความที่เครื่องสร้างขึ้น

น่าเศร้าที่แผนการตรวจจับที่มีอยู่อาจไม่ได้ดีไปกว่าการพลิกเหรียญ เพิ่มความเป็นไปได้ที่เราถูกกำหนดให้นำเข้าสำเนาที่ประกอบด้วยสถิติซึ่งเป็นผลมาจากการบริโภคเนื้อหาออนไลน์

นักวิทยาศาสตร์คอมพิวเตอร์ห้าคนจากมหาวิทยาลัยแมริแลนด์ในสหรัฐอเมริกา ได้แก่ Vinu Sankar Sadasivan, Aounon Kumar, Sriram Balasubramanian, Wenxiao Wang และ Soheil Feizi ได้ตรวจสอบการตรวจจับข้อความที่สร้างขึ้นโดยแบบจำลองภาษาขนาดใหญ่

การค้นพบของพวกเขามีรายละเอียดในบทความเรื่อง สามารถตรวจจับข้อความที่สร้างโดย AI ได้อย่างน่าเชื่อถือหรือไม่สามารถทำนายได้โดยใช้กฎพาดหัวข่าวของ Betteridge: พาดหัวใดๆ ที่ลงท้ายด้วยเครื่องหมายคำถามสามารถตอบได้ด้วยคำว่า ไม่

การอ้างอิง หลาย อ้างว่า เครื่องตรวจจับ จากข้อความที่สร้างขึ้นโดย LLM บอฟฟินตั้งข้อสังเกตว่า “ในบทความนี้ เราแสดงให้เห็นทั้งในเชิงทฤษฎีและในเชิงประจักษ์ว่าเครื่องตรวจจับที่ทันสมัยเหล่านี้ไม่สามารถตรวจจับผลลัพธ์ LLM ได้อย่างน่าเชื่อถือในสถานการณ์จริง”

การตรวจจับเอาต์พุต LLM เช่น ปริศนา CAPTCHA [PDF] ดูเหมือนจะล้มเหลวเนื่องจากโมเดลการเรียนรู้ของเครื่องยังคงปรับปรุงและสามารถเลียนแบบเอาต์พุตของมนุษย์ได้

คนขี้ขลาดโต้แย้งว่ามีการใช้โมเดลเหล่านี้อย่างไร้การควบคุม ซึ่งตอนนี้กำลังถูกรวมเข้าไว้ด้วยกัน แอพพลิเคชั่นที่ใช้กันอย่างแพร่หลาย จากบริษัทเทคโนโลยีรายใหญ่ – มีศักยภาพที่จะนำไปสู่ผลลัพธ์ที่ไม่พึงประสงค์ เช่น สแปมที่ซับซ้อน ข่าวปลอมที่บิดเบือน การสรุปเอกสารที่ไม่ถูกต้อง และการคัดลอกผลงาน

กลายเป็นเพียงการถอดความข้อความออกของ LLM ซึ่งเป็นสิ่งที่สามารถทำได้ โปรแกรมแทนคำ – มักจะเพียงพอที่จะหลบเลี่ยงการตรวจจับ สิ่งนี้สามารถลดความแม่นยำของเครื่องตรวจจับจากระดับพื้นฐาน 97 เปอร์เซ็นต์เป็นทุกที่จาก 80 เปอร์เซ็นต์เป็น 57 เปอร์เซ็นต์ ซึ่งไม่ดีไปกว่าการโยนเหรียญ

“ในเชิงประจักษ์ เราแสดงให้เห็นว่าการโจมตีด้วยการถอดความ ซึ่งใช้การถอดความแบบเบาๆ ด้านบนของโมเดลข้อความเชิงกำเนิด สามารถทำลายเครื่องมือตรวจจับทั้งหมด รวมถึงตัวตรวจจับที่ใช้รูปแบบลายน้ำ เช่นเดียวกับตัวตรวจจับที่ใช้โครงข่ายประสาทเทียมและ Zero-shot ลักษณนาม” นักวิจัยอธิบายในบทความของพวกเขา

ในอีเมลถึง ลงทะเบียนSoheil Feizi ผู้ช่วยศาสตราจารย์ด้านวิทยาการคอมพิวเตอร์ที่ UMD College Park และหนึ่งในผู้ร่วมเขียนรายงานอธิบายว่า “ปัญหาของลายน้ำข้อความคือการที่ไม่สนใจธรรมชาติที่ซับซ้อนของการกระจายข้อความ สมมติว่าประโยค S ต่อไปนี้ที่มีข้อมูลที่ผิดถูกสร้างขึ้นโดยแบบจำลอง AI และเป็นแบบ 'ลายน้ำ' ซึ่งหมายความว่ามีลายเซ็นที่ซ่อนอยู่บางส่วน เพื่อให้เราสามารถตรวจจับได้ว่าสิ่งนี้สร้างขึ้นโดย AI"

  • S: องค์การอนามัยโลกออกแถลงการณ์ที่น่าตกใจว่าวัคซีนไม่ได้ผล เนื่องจากไม่ได้ป้องกันผู้คนจากการติดเชื้อ ซึ่งหมายความว่ามันไม่มีประโยชน์

“สิ่งนี้สร้างขึ้นโดยโมเดลภาษาขนาดใหญ่ที่มีลายน้ำ OPT-1.3B” Feizi กล่าว “ตอนนี้ให้พิจารณาประโยคข้างต้นในรูปแบบถอดความ:”

  • วัคซีนไม่มีประโยชน์เพราะไม่ได้ป้องกันผู้คนจากการติดเชื้อ อ้างอิงจากองค์การอนามัยโลก

“ข้อมูลนี้มีข้อมูลที่ผิดเหมือนกัน แต่วิธีนี้ตรวจไม่พบด้วยวิธีลายน้ำ” Feizi กล่าว

“ตัวอย่างนี้ชี้ให้เห็นถึงปัญหาพื้นฐานของลายน้ำข้อความ: หากอัลกอริทึมลายน้ำตรวจพบประโยคอื่นๆ ทั้งหมดที่มีความหมายเดียวกันกับประโยคที่สร้างโดย AI ก็จะมีข้อผิดพลาดประเภท I ขนาดใหญ่: จะตรวจพบประโยคที่มนุษย์เขียนขึ้นจำนวนมาก เป็นสิ่งที่สร้างโดย AI; อาจสร้างข้อกล่าวหาที่ผิด ๆ มากมายเกี่ยวกับการลอกเลียนแบบ”

“ในทางกลับกัน” Feizi กล่าวเสริม “หากอัลกอริทึมลายน้ำถูกจำกัดไว้เพียงข้อความที่สร้างโดย AI การโจมตีด้วยการถอดความง่ายๆ ดังที่เราได้แสดงในเอกสารของเรา สามารถลบลายเซ็นลายน้ำได้ ซึ่งหมายความว่าสามารถสร้างประเภทขนาดใหญ่ได้ -II ข้อผิดพลาด สิ่งที่เราแสดงให้เห็นคือเป็นไปไม่ได้ที่จะมีข้อผิดพลาดประเภท I และ II ต่ำพร้อมกันในสถานการณ์จริง”

และการย้อนกลับการประยุกต์ใช้การถอดความกับตัวอย่างข้อความที่กำหนดนั้นไม่ได้ช่วยอะไรจริงๆ

"สมมติว่าการถอดความแบบย้อนกลับเป็นไปได้" Vinu Sankar Sadasivan นักศึกษาปริญญาเอกวิทยาการคอมพิวเตอร์ที่ UMD College Park และหนึ่งในผู้เขียนรายงานกล่าวในอีเมลถึง ลงทะเบียน. “มีปัญหาสำคัญในเรื่องนี้สำหรับการตรวจจับ ตัวตรวจจับควรพยายามถอดความแบบกลับด้านหาก AI สร้างประโยคขึ้นมาจริงๆ มิฉะนั้น การถอดความแบบย้อนกลับอาจนำไปสู่การตรวจพบข้อความของมนุษย์อย่างผิดพลาดว่าสร้างขึ้นโดย AI”

Sadasivan กล่าวว่ามีวิธีถอดความประโยคได้หลายรูปแบบ ดังนั้นจึงไม่สามารถย้อนกลับกระบวนการได้ โดยเฉพาะอย่างยิ่งหากคุณไม่ทราบแหล่งที่มาของข้อความต้นฉบับ

เขาอธิบายว่าการใส่ลายน้ำข้อความนั้นยากกว่าการใส่ลายน้ำรูปภาพ มันต้องแสดงผลการทำงานในรูปแบบเฉพาะที่มนุษย์ไม่สามารถมองเห็นได้เพื่อช่วยในการตรวจจับ

“รูปแบบเหล่านี้สามารถลบออกได้อย่างง่ายดายโดยใช้การถอดความการโจมตีที่เราเสนอในเอกสารของเรา” Sadasivan กล่าว “หากไม่เป็นเช่นนั้น เป็นไปได้มากว่าข้อความที่เขียนโดยมนุษย์จะถูกตรวจพบว่าเป็นลายน้ำอย่างผิดพลาดโดยเครื่องมือตรวจจับที่ใช้ลายน้ำ”

ผลลัพธ์ของเราชี้ให้เห็นถึงความเป็นไปไม่ได้ของปัญหาการตรวจจับข้อความที่สร้างโดย AI ในสถานการณ์จริง

มันแย่ลง The boffins อธิบายว่า “ผลลัพธ์ที่เป็นไปไม่ได้ในทางทฤษฎีบ่งชี้ว่าสำหรับแบบจำลองภาษาที่ดีพอ แม้แต่ตัวตรวจจับที่ดีที่สุดเท่าที่จะเป็นไปได้ก็สามารถทำงานได้ดีกว่าตัวแยกประเภทแบบสุ่มเพียงเล็กน้อยเท่านั้น”

ถามว่ามีเส้นทางไปยังวิธีการตรวจหาข้อความที่สร้างขึ้นโดย LLM ที่เชื่อถือได้หรือไม่ Feizi กล่าวว่าไม่มี

“ผลลัพธ์ของเราชี้ให้เห็นถึงความเป็นไปไม่ได้ของปัญหาการตรวจจับข้อความที่สร้างโดย AI ในสถานการณ์จริง” Feizi อธิบาย “ดังนั้น คำตอบสั้น ๆ ก็คือ ขออภัย ไม่”

ผู้เขียนยังสังเกตด้วยว่า LLM ที่ได้รับการปกป้องด้วยรูปแบบลายน้ำอาจเสี่ยงต่อการถูกโจมตีด้วยการปลอมแปลง ซึ่งบุคคลที่ไม่ประสงค์ดีสามารถอนุมานลายเซ็นลายน้ำและเพิ่มลงในข้อความที่สร้างขึ้นเพื่อให้ผู้เผยแพร่ข้อความนั้นถูกกล่าวหาว่าเป็นผู้ลอกเลียนแบบหรือสแปมเมอร์

“ฉันคิดว่าเราต้องเรียนรู้ที่จะอยู่กับความจริงที่ว่าเราอาจไม่สามารถพูดได้อย่างน่าเชื่อถือว่าข้อความนั้นเขียนโดยมนุษย์หรือ AI” Feizi กล่าว “แต่เราอาจตรวจสอบ 'แหล่งที่มา' ของข้อความผ่านข้อมูลอื่นแทนได้ ตัวอย่างเช่น แพลตฟอร์มโซเชียลหลายแห่งเริ่มตรวจสอบบัญชีอย่างกว้างขวาง ซึ่งอาจทำให้การแพร่กระจายข้อมูลที่ผิดที่เกิดจาก AI ทำได้ยากขึ้น” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน

ด้วยความมุ่งมั่นในตำนานของอัลฟาเบทที่มีต่อผลิตภัณฑ์ เราแทบรอไม่ไหวที่จะได้เห็นว่า Intrinsic ด้านหุ่นยนต์ของบริษัทจะประสบความสำเร็จได้อย่างไร

โหนดต้นทาง: 1858747
ประทับเวลา: กรกฎาคม 23, 2021