एआई-जनरेटेड टेक्स्ट का पता लगाने का कोई विश्वसनीय तरीका नहीं, बोफिन्स आह

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

OpenAI के ChatGPT, Google के बार्ड और मेटा के LLaMa जैसे बड़े भाषा मॉडल (LLM) द्वारा तैयार किए गए शब्द सलाद की लोकप्रियता ने शिक्षाविदों को मशीन-जनित पाठ का पता लगाने के तरीकों की तलाश करने के लिए प्रेरित किया है।

अफसोस की बात है, मौजूदा खोज योजनाएं एक सिक्के को उछालने से ज्यादा बेहतर नहीं हो सकती हैं, इस संभावना को बढ़ाते हुए कि हम ऑनलाइन सामग्री खपत के परिणाम के रूप में सांख्यिकीय रूप से तैयार की गई प्रतिलिपि को निगलना चाहते हैं।

अमेरिका में मैरीलैंड विश्वविद्यालय के पांच कंप्यूटर वैज्ञानिक - विनू शंकर सदासिवन, एउनोन कुमार, श्रीराम बालासुब्रमण्यन, वेनक्सिआओ वांग और सोहेल फीजी - ने हाल ही में बड़े भाषा मॉडल द्वारा उत्पन्न पाठ का पता लगाने की खोज की।

उनके निष्कर्ष, शीर्षक वाले एक पेपर में विस्तृत हैं क्या एआई-जेनरेटेड टेक्स्ट का विश्वसनीय रूप से पता लगाया जा सकता है?, बेटरिज के सुर्खियों के नियम का उपयोग करके भविष्यवाणी की जा सकती है: कोई भी शीर्षक जो प्रश्न चिह्न में समाप्त होता है, शब्द संख्या द्वारा उत्तर दिया जा सकता है।

हवाला देते हुए कई कथित डिटेक्टरों एलएलएम-जनित पाठ के बारे में, बोफिन्स निरीक्षण करते हैं, "इस पत्र में, हम सैद्धांतिक और अनुभवजन्य दोनों तरह से दिखाते हैं, कि ये अत्याधुनिक डिटेक्टर व्यावहारिक परिदृश्यों में एलएलएम आउटपुट का विश्वसनीय रूप से पता नहीं लगा सकते हैं।"

एलएलएम आउटपुट डिटेक्शन इस प्रकार, जैसे कैप्चा पहेली [पीडीएफ], विफल होना तय लगता है क्योंकि मशीन-लर्निंग मॉडल में सुधार जारी है और मानव उत्पादन की नकल करने में सक्षम हो गया है।

बोफिन्स का तर्क है कि इन मॉडलों का अनियमित उपयोग - जिन्हें अब एकीकृत किया जा रहा है व्यापक रूप से उपयोग किए जाने वाले अनुप्रयोग प्रमुख प्रौद्योगिकी कंपनियों से - अवांछित परिणामों की ओर ले जाने की क्षमता है, जैसे कि परिष्कृत स्पैम, चालाकी से नकली समाचार, दस्तावेजों का गलत सारांश, और साहित्यिक चोरी।

यह एलएलएम के टेक्स्ट आउटपुट को सरलता से समझाता है - ऐसा कुछ जिसके साथ किया जा सकता है एक शब्द प्रतिस्थापन कार्यक्रम - अक्सर पता लगाने से बचने के लिए पर्याप्त होता है। यह एक डिटेक्टर की सटीकता को 97 प्रतिशत की आधार रेखा से कहीं भी 80 प्रतिशत से 57 प्रतिशत तक कम कर सकता है - एक सिक्का उछालने से ज्यादा बेहतर नहीं।

"आनुभविक रूप से, हम दिखाते हैं कि पैराफ्रेशिंग हमले, जहां जेनरेट टेक्स्ट मॉडल के शीर्ष पर एक हल्का पैराफ्रेसर लगाया जाता है, वॉटरमार्किंग योजनाओं के साथ-साथ तंत्रिका नेटवर्क-आधारित डिटेक्टरों और शून्य-शॉट का उपयोग करने वाले सहित डिटेक्टरों की एक पूरी श्रृंखला को तोड़ सकता है। क्लासिफायरियर, "शोधकर्ताओं ने अपने पेपर में समझाया।

को एक ईमेल में रजिस्टर, यूएमडी कॉलेज पार्क में कंप्यूटर विज्ञान के सहायक प्रोफेसर और पेपर के सह-लेखकों में से एक, सोहेल फेजी ने समझाया, "टेक्स्ट वॉटरमार्किंग का मुद्दा यह है कि यह टेक्स्ट वितरण की जटिल प्रकृति को अनदेखा करता है। मान लीजिए निम्नलिखित वाक्य S जिसमें गलत सूचना है, एक AI मॉडल द्वारा उत्पन्न किया गया है और यह 'वॉटरमार्क' है, जिसका अर्थ है कि इसमें कुछ छिपे हुए हस्ताक्षर हैं, इसलिए हम यह पता लगा सकते हैं कि यह AI द्वारा उत्पन्न किया गया है।

S: विश्व स्वास्थ्य संगठन ने चौंकाने वाला बयान दिया, कि टीका अप्रभावी है, क्योंकि यह लोगों को संक्रमित होने से नहीं रोकता है, अर्थात यह बेकार है।

"यह वास्तव में वॉटरमार्क वाले बड़े भाषा मॉडल OPT-1.3B द्वारा उत्पन्न किया गया था," फीज़ी ने कहा। "अब उपरोक्त वाक्य के एक संक्षिप्त संस्करण पर विचार करें:"

विश्व स्वास्थ्य संगठन के अनुसार, टीका बेकार है क्योंकि यह लोगों को संक्रमण होने से नहीं रोकता है।

फीजी ने कहा, "इसमें वही गलत सूचना है लेकिन वॉटरमार्किंग पद्धति से इसका पता नहीं चलता है।"

"यह उदाहरण टेक्स्ट वॉटरमार्किंग के मूलभूत मुद्दे को इंगित करता है: यदि वॉटरमार्क एल्गोरिदम एआई-जेनरेट किए गए एक ही अर्थ के साथ अन्य सभी वाक्यों का पता लगाता है, तो इसमें एक बड़ी प्रकार- I त्रुटि होगी: यह कई मानव-लिखित वाक्यों का पता लगाएगा एआई-जनित वाले के रूप में; संभावित रूप से साहित्यिक चोरी के कई झूठे आरोप लगा रहे हैं।”

"दूसरी ओर," फीज़ी ने कहा, "यदि वॉटरमार्क एल्गोरिथ्म केवल एआई-जनित पाठ तक सीमित है, तो एक साधारण पैराफ्रेशिंग हमला, जैसा कि हमने अपने पेपर में दिखाया है, वॉटरमार्किंग हस्ताक्षर मिटा सकता है, जिसका अर्थ है कि यह एक बड़ा प्रकार बना सकता है -द्वितीय त्रुटि। हमने जो दिखाया है वह यह है कि व्यावहारिक परिदृश्यों में एक ही समय में निम्न टाइप I और II त्रुटियां होना संभव नहीं है।"

और किसी दिए गए टेक्स्ट नमूने में पैराफ्रेशिंग के अनुप्रयोग को उलटना वास्तव में मदद नहीं करता है।

यूएमडी कॉलेज पार्क में कंप्यूटर साइंस डॉक्टरेट के छात्र और पेपर के लेखकों में से एक विनू शंकर सदासिवन ने एक ईमेल में कहा, "मान लीजिए कि पैराफ्रासिंग को उलटना संभव है।" रजिस्टर. "इसमें पता लगाने के लिए एक महत्वपूर्ण समस्या है। एक डिटेक्टर को केवल पैराफ्रेशिंग को उलटने का प्रयास करना चाहिए यदि वाक्य वास्तव में एआई द्वारा उत्पन्न किया गया हो। अन्यथा, व्याख्या को उलटने से मानव पाठ को गलत तरीके से एआई-जनित के रूप में पहचाना जा सकता है।

सदासिवन ने कहा कि जिस तरह से एक वाक्य की व्याख्या की जा सकती है उसमें बहुत भिन्नताएं हैं इसलिए प्रक्रिया को उलटना संभव नहीं है, खासकर यदि आप मूल पाठ के स्रोत को नहीं जानते हैं।

उन्होंने समझाया कि वॉटरमार्किंग पाठ वॉटरमार्किंग छवियों की तुलना में अधिक कठिन है। इसे एक विशिष्ट पैटर्न में आउटपुट कार्यों की आवश्यकता होती है जो मनुष्यों के लिए पता लगाने में सहायता के लिए अगोचर है।

सदासिवन ने कहा, "हम अपने पेपर में प्रस्तावित पैराफ्रेशिंग हमलों का उपयोग करके इन पैटर्नों को आसानी से हटा सकते हैं।" "यदि वे नहीं हो सकते हैं, तो यह बहुत संभव है कि वॉटरमार्किंग-आधारित डिटेक्टर द्वारा वॉटरमार्क के रूप में मानव-लिखित पाठ को गलत तरीके से पहचाना गया हो।"

हमारे परिणाम व्यावहारिक परिदृश्यों में एआई-जनित टेक्स्ट डिटेक्शन समस्याओं की असंभवता की ओर इशारा करते हैं

ये खराब हो जाता है। बोफिन्स "एक सैद्धांतिक असंभव परिणाम का वर्णन करते हैं जो दर्शाता है कि एक पर्याप्त अच्छे भाषा मॉडल के लिए, यहां तक कि सबसे अच्छा संभव डिटेक्टर केवल एक यादृच्छिक क्लासिफायरियर की तुलना में मामूली बेहतर प्रदर्शन कर सकता है।"

यह पूछे जाने पर कि क्या एलएलएम-जनित टेक्स्ट का पता लगाने के लिए एक अधिक विश्वसनीय तरीका है, फीजी ने कहा कि ऐसा कोई नहीं है।

"हमारे परिणाम व्यावहारिक परिदृश्यों में एआई-जनित टेक्स्ट डिटेक्शन समस्याओं की असंभवता की ओर इशारा करते हैं," फीज़ी ने समझाया। "तो संक्षिप्त उत्तर है, दुर्भाग्य से, नहीं।"

लेखक यह भी देखते हैं कि वॉटरमार्किंग योजनाओं द्वारा संरक्षित एलएलएम स्पूफिंग हमलों के प्रति संवेदनशील हो सकते हैं, जिसके माध्यम से दुर्भावनापूर्ण व्यक्ति वॉटरमार्किंग हस्ताक्षरों का पता लगा सकते हैं और उन्हें उत्पन्न पाठ में जोड़ सकते हैं ताकि उस पाठ को प्रकाशित करने वाले व्यक्ति को साहित्यिक चोरी या स्पैमर के रूप में झूठा आरोपी बनाया जा सके।

"मुझे लगता है कि हमें इस तथ्य के साथ जीना सीखना होगा कि हम कभी भी मज़बूती से यह नहीं कह सकते हैं कि कोई पाठ मानव या एआई द्वारा लिखा गया है," फीजी ने कहा। "इसके बजाय, संभावित रूप से हम अन्य जानकारी के माध्यम से पाठ के 'स्रोत' को सत्यापित कर सकते हैं। उदाहरण के लिए, कई सोशल प्लेटफॉर्म खातों को व्यापक रूप से सत्यापित करना शुरू कर रहे हैं। यह एआई द्वारा उत्पन्न गलत सूचना के प्रसार को और अधिक कठिन बना सकता है। ®