OpenAI के ChatGPT, Google के बार्ड और मेटा के LLaMa जैसे बड़े भाषा मॉडल (LLM) द्वारा तैयार किए गए शब्द सलाद की लोकप्रियता ने शिक्षाविदों को मशीन-जनित पाठ का पता लगाने के तरीकों की तलाश करने के लिए प्रेरित किया है।
अफसोस की बात है, मौजूदा खोज योजनाएं एक सिक्के को उछालने से ज्यादा बेहतर नहीं हो सकती हैं, इस संभावना को बढ़ाते हुए कि हम ऑनलाइन सामग्री खपत के परिणाम के रूप में सांख्यिकीय रूप से तैयार की गई प्रतिलिपि को निगलना चाहते हैं।
अमेरिका में मैरीलैंड विश्वविद्यालय के पांच कंप्यूटर वैज्ञानिक - विनू शंकर सदासिवन, एउनोन कुमार, श्रीराम बालासुब्रमण्यन, वेनक्सिआओ वांग और सोहेल फीजी - ने हाल ही में बड़े भाषा मॉडल द्वारा उत्पन्न पाठ का पता लगाने की खोज की।
उनके निष्कर्ष, शीर्षक वाले एक पेपर में विस्तृत हैं क्या एआई-जेनरेटेड टेक्स्ट का विश्वसनीय रूप से पता लगाया जा सकता है?, बेटरिज के सुर्खियों के नियम का उपयोग करके भविष्यवाणी की जा सकती है: कोई भी शीर्षक जो प्रश्न चिह्न में समाप्त होता है, शब्द संख्या द्वारा उत्तर दिया जा सकता है।
हवाला देते हुए कई कथित डिटेक्टरों एलएलएम-जनित पाठ के बारे में, बोफिन्स निरीक्षण करते हैं, "इस पत्र में, हम सैद्धांतिक और अनुभवजन्य दोनों तरह से दिखाते हैं, कि ये अत्याधुनिक डिटेक्टर व्यावहारिक परिदृश्यों में एलएलएम आउटपुट का विश्वसनीय रूप से पता नहीं लगा सकते हैं।"
एलएलएम आउटपुट डिटेक्शन इस प्रकार, जैसे कैप्चा पहेली [पीडीएफ], विफल होना तय लगता है क्योंकि मशीन-लर्निंग मॉडल में सुधार जारी है और मानव उत्पादन की नकल करने में सक्षम हो गया है।
बोफिन्स का तर्क है कि इन मॉडलों का अनियमित उपयोग - जिन्हें अब एकीकृत किया जा रहा है व्यापक रूप से उपयोग किए जाने वाले अनुप्रयोग प्रमुख प्रौद्योगिकी कंपनियों से - अवांछित परिणामों की ओर ले जाने की क्षमता है, जैसे कि परिष्कृत स्पैम, चालाकी से नकली समाचार, दस्तावेजों का गलत सारांश, और साहित्यिक चोरी।
यह एलएलएम के टेक्स्ट आउटपुट को सरलता से समझाता है - ऐसा कुछ जिसके साथ किया जा सकता है एक शब्द प्रतिस्थापन कार्यक्रम - अक्सर पता लगाने से बचने के लिए पर्याप्त होता है। यह एक डिटेक्टर की सटीकता को 97 प्रतिशत की आधार रेखा से कहीं भी 80 प्रतिशत से 57 प्रतिशत तक कम कर सकता है - एक सिक्का उछालने से ज्यादा बेहतर नहीं।
"आनुभविक रूप से, हम दिखाते हैं कि पैराफ्रेशिंग हमले, जहां जेनरेट टेक्स्ट मॉडल के शीर्ष पर एक हल्का पैराफ्रेसर लगाया जाता है, वॉटरमार्किंग योजनाओं के साथ-साथ तंत्रिका नेटवर्क-आधारित डिटेक्टरों और शून्य-शॉट का उपयोग करने वाले सहित डिटेक्टरों की एक पूरी श्रृंखला को तोड़ सकता है। क्लासिफायरियर, "शोधकर्ताओं ने अपने पेपर में समझाया।
को एक ईमेल में रजिस्टर, यूएमडी कॉलेज पार्क में कंप्यूटर विज्ञान के सहायक प्रोफेसर और पेपर के सह-लेखकों में से एक, सोहेल फेजी ने समझाया, "टेक्स्ट वॉटरमार्किंग का मुद्दा यह है कि यह टेक्स्ट वितरण की जटिल प्रकृति को अनदेखा करता है। मान लीजिए निम्नलिखित वाक्य S जिसमें गलत सूचना है, एक AI मॉडल द्वारा उत्पन्न किया गया है और यह 'वॉटरमार्क' है, जिसका अर्थ है कि इसमें कुछ छिपे हुए हस्ताक्षर हैं, इसलिए हम यह पता लगा सकते हैं कि यह AI द्वारा उत्पन्न किया गया है।
- S: विश्व स्वास्थ्य संगठन ने चौंकाने वाला बयान दिया, कि टीका अप्रभावी है, क्योंकि यह लोगों को संक्रमित होने से नहीं रोकता है, अर्थात यह बेकार है।
"यह वास्तव में वॉटरमार्क वाले बड़े भाषा मॉडल OPT-1.3B द्वारा उत्पन्न किया गया था," फीज़ी ने कहा। "अब उपरोक्त वाक्य के एक संक्षिप्त संस्करण पर विचार करें:"
- विश्व स्वास्थ्य संगठन के अनुसार, टीका बेकार है क्योंकि यह लोगों को संक्रमण होने से नहीं रोकता है।
फीजी ने कहा, "इसमें वही गलत सूचना है लेकिन वॉटरमार्किंग पद्धति से इसका पता नहीं चलता है।"
"यह उदाहरण टेक्स्ट वॉटरमार्किंग के मूलभूत मुद्दे को इंगित करता है: यदि वॉटरमार्क एल्गोरिदम एआई-जेनरेट किए गए एक ही अर्थ के साथ अन्य सभी वाक्यों का पता लगाता है, तो इसमें एक बड़ी प्रकार- I त्रुटि होगी: यह कई मानव-लिखित वाक्यों का पता लगाएगा एआई-जनित वाले के रूप में; संभावित रूप से साहित्यिक चोरी के कई झूठे आरोप लगा रहे हैं।”
"दूसरी ओर," फीज़ी ने कहा, "यदि वॉटरमार्क एल्गोरिथ्म केवल एआई-जनित पाठ तक सीमित है, तो एक साधारण पैराफ्रेशिंग हमला, जैसा कि हमने अपने पेपर में दिखाया है, वॉटरमार्किंग हस्ताक्षर मिटा सकता है, जिसका अर्थ है कि यह एक बड़ा प्रकार बना सकता है -द्वितीय त्रुटि। हमने जो दिखाया है वह यह है कि व्यावहारिक परिदृश्यों में एक ही समय में निम्न टाइप I और II त्रुटियां होना संभव नहीं है।"
और किसी दिए गए टेक्स्ट नमूने में पैराफ्रेशिंग के अनुप्रयोग को उलटना वास्तव में मदद नहीं करता है।
यूएमडी कॉलेज पार्क में कंप्यूटर साइंस डॉक्टरेट के छात्र और पेपर के लेखकों में से एक विनू शंकर सदासिवन ने एक ईमेल में कहा, "मान लीजिए कि पैराफ्रासिंग को उलटना संभव है।" रजिस्टर. "इसमें पता लगाने के लिए एक महत्वपूर्ण समस्या है। एक डिटेक्टर को केवल पैराफ्रेशिंग को उलटने का प्रयास करना चाहिए यदि वाक्य वास्तव में एआई द्वारा उत्पन्न किया गया हो। अन्यथा, व्याख्या को उलटने से मानव पाठ को गलत तरीके से एआई-जनित के रूप में पहचाना जा सकता है।
सदासिवन ने कहा कि जिस तरह से एक वाक्य की व्याख्या की जा सकती है उसमें बहुत भिन्नताएं हैं इसलिए प्रक्रिया को उलटना संभव नहीं है, खासकर यदि आप मूल पाठ के स्रोत को नहीं जानते हैं।
उन्होंने समझाया कि वॉटरमार्किंग पाठ वॉटरमार्किंग छवियों की तुलना में अधिक कठिन है। इसे एक विशिष्ट पैटर्न में आउटपुट कार्यों की आवश्यकता होती है जो मनुष्यों के लिए पता लगाने में सहायता के लिए अगोचर है।
सदासिवन ने कहा, "हम अपने पेपर में प्रस्तावित पैराफ्रेशिंग हमलों का उपयोग करके इन पैटर्नों को आसानी से हटा सकते हैं।" "यदि वे नहीं हो सकते हैं, तो यह बहुत संभव है कि वॉटरमार्किंग-आधारित डिटेक्टर द्वारा वॉटरमार्क के रूप में मानव-लिखित पाठ को गलत तरीके से पहचाना गया हो।"
हमारे परिणाम व्यावहारिक परिदृश्यों में एआई-जनित टेक्स्ट डिटेक्शन समस्याओं की असंभवता की ओर इशारा करते हैं
ये खराब हो जाता है। बोफिन्स "एक सैद्धांतिक असंभव परिणाम का वर्णन करते हैं जो दर्शाता है कि एक पर्याप्त अच्छे भाषा मॉडल के लिए, यहां तक कि सबसे अच्छा संभव डिटेक्टर केवल एक यादृच्छिक क्लासिफायरियर की तुलना में मामूली बेहतर प्रदर्शन कर सकता है।"
यह पूछे जाने पर कि क्या एलएलएम-जनित टेक्स्ट का पता लगाने के लिए एक अधिक विश्वसनीय तरीका है, फीजी ने कहा कि ऐसा कोई नहीं है।
"हमारे परिणाम व्यावहारिक परिदृश्यों में एआई-जनित टेक्स्ट डिटेक्शन समस्याओं की असंभवता की ओर इशारा करते हैं," फीज़ी ने समझाया। "तो संक्षिप्त उत्तर है, दुर्भाग्य से, नहीं।"
लेखक यह भी देखते हैं कि वॉटरमार्किंग योजनाओं द्वारा संरक्षित एलएलएम स्पूफिंग हमलों के प्रति संवेदनशील हो सकते हैं, जिसके माध्यम से दुर्भावनापूर्ण व्यक्ति वॉटरमार्किंग हस्ताक्षरों का पता लगा सकते हैं और उन्हें उत्पन्न पाठ में जोड़ सकते हैं ताकि उस पाठ को प्रकाशित करने वाले व्यक्ति को साहित्यिक चोरी या स्पैमर के रूप में झूठा आरोपी बनाया जा सके।
"मुझे लगता है कि हमें इस तथ्य के साथ जीना सीखना होगा कि हम कभी भी मज़बूती से यह नहीं कह सकते हैं कि कोई पाठ मानव या एआई द्वारा लिखा गया है," फीजी ने कहा। "इसके बजाय, संभावित रूप से हम अन्य जानकारी के माध्यम से पाठ के 'स्रोत' को सत्यापित कर सकते हैं। उदाहरण के लिए, कई सोशल प्लेटफॉर्म खातों को व्यापक रूप से सत्यापित करना शुरू कर रहे हैं। यह एआई द्वारा उत्पन्न गलत सूचना के प्रसार को और अधिक कठिन बना सकता है। ®
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/03/21/detecting_ai_generated_text/
- :है
- a
- योग्य
- ऊपर
- अनुसार
- अकौन्टस(लेखा)
- शुद्धता
- आरोप
- अभियुक्त
- वास्तव में
- जोड़ा
- AI
- कलन विधि
- सब
- और
- जवाब
- कहीं भी
- आवेदन
- लागू
- हैं
- बहस
- AS
- सहायता
- सहायक
- At
- आक्रमण
- आक्रमण
- लेखकों
- आधारभूत
- BE
- क्योंकि
- बन
- जा रहा है
- बेहतर
- टूटना
- by
- कर सकते हैं
- नही सकता
- सक्षम
- ChatGPT
- CO
- सिक्का
- कॉलेज
- कंपनियों
- जटिल
- प्रकृतिस्थ
- कंप्यूटर
- कम्प्यूटर साइंस
- Consequences
- विचार करना
- खपत
- शामिल हैं
- सामग्री
- जारी रखने के
- सका
- बनाना
- महत्वपूर्ण
- वर्णन
- विस्तृत
- पता चला
- खोज
- मुश्किल
- वितरण
- दस्तावेजों
- नहीं करता है
- आसानी
- ईमेल
- समाप्त होता है
- पर्याप्त
- त्रुटि
- त्रुटियाँ
- ईथर (ईटीएच)
- और भी
- उदाहरण
- मौजूदा
- समझाया
- असफल
- उल्लू बनाना
- फर्जी खबर
- निम्नलिखित
- के लिए
- से
- मौलिक
- उत्पन्न
- उत्पादक
- मिल
- मिल रहा
- दी
- चला जाता है
- अच्छा
- गूगल
- हाथ
- है
- शीर्षक
- मुख्य बातें
- स्वास्थ्य
- मदद
- छिपा हुआ
- HTTPS
- मानव
- मनुष्य
- i
- छवियों
- में सुधार
- in
- ग़लत
- सहित
- व्यक्तियों
- संक्रमण
- करें-
- बजाय
- एकीकृत
- मुद्दा
- IT
- जेपीजी
- जानना
- भाषा
- बड़ा
- कानून
- नेतृत्व
- जानें
- प्रकाश
- पसंद
- संभावित
- सीमित
- जीना
- लामा
- देखिए
- देखा
- लॉट
- निम्न
- बनाया गया
- प्रमुख
- बनाना
- निर्माण
- बहुत
- निशान
- मेरीलैंड
- अर्थ
- साधन
- मेटा
- तरीका
- झूठी खबर
- आदर्श
- मॉडल
- अधिक
- प्रकृति
- आवश्यकता
- संजाल आधारित
- तंत्रिका
- समाचार
- निरीक्षण
- of
- on
- ONE
- ऑनलाइन
- OpenAI
- संगठन
- मूल
- अन्य
- उत्पादन
- काग़ज़
- पार्क
- विशेष रूप से
- पथ
- पैटर्न
- पैटर्न उपयोग करें
- पीडीएफ
- स्टाफ़
- प्रतिशत
- निष्पादन
- व्यक्ति
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बिन्दु
- अंक
- लोकप्रियता
- संभावना
- संभव
- संभावित
- संभावित
- व्यावहारिक
- भविष्यवाणी
- तैयार
- को रोकने के
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रोफेसर
- प्रस्ताव
- संरक्षित
- प्रकाशन
- प्रश्न
- को ऊपर उठाने
- बिना सोचे समझे
- रेंज
- RE
- हाल ही में
- विश्वसनीय
- हटाया
- की आवश्यकता होती है
- शोधकर्ताओं
- परिणाम
- परिणाम
- उल्टा
- s
- कहा
- वही
- परिदृश्यों
- योजनाओं
- विज्ञान
- वैज्ञानिकों
- लगता है
- वाक्य
- कम
- चाहिए
- दिखाना
- दिखाया
- हस्ताक्षर
- सरल
- केवल
- So
- सोशल मीडिया
- सामाजिक मंच
- कुछ
- कुछ
- परिष्कृत
- स्रोत
- स्पैम
- विशिष्ट
- विस्तार
- शुरुआत में
- राज्य के-the-कला
- कथन
- छात्र
- ऐसा
- टेक्नोलॉजी
- प्रौद्योगिकी कंपनियों
- कि
- RSI
- स्रोत
- दुनिया
- लेकिन हाल ही
- उन
- सैद्धांतिक
- इन
- सोचना
- यहाँ
- पहर
- शीर्षक से
- सेवा मेरे
- ऊपर का
- टॉस
- विश्वविद्यालय
- यूनिवर्सिटी ऑफ मेरीलैंड
- us
- उपयोग
- टीका
- सत्यापित
- संस्करण
- के माध्यम से
- Vinu
- चपेट में
- मार्ग..
- तरीके
- कुंआ
- क्या
- या
- कौन कौन से
- व्यापक रूप से
- मर्जी
- साथ में
- शब्द
- कार्य
- विश्व
- विश्व स्वास्थ संगठन
- लिखा हुआ
- जेफिरनेट