นักคณิตศาสตร์เดินเข้าไปในบาร์ (ของการบิดเบือนข้อมูล)

โหนดต้นทาง: 1865101

การบิดเบือนข้อมูล ข้อมูลที่ผิด สาระบันเทิง อัลกอวาร์ส หากการโต้เถียงกันเกี่ยวกับอนาคตของสื่อในช่วงสองสามทศวรรษที่ผ่านมามีความหมายอะไร อย่างน้อยพวกเขาก็ทิ้งรอยประทับที่ฉุนเฉียวในภาษาอังกฤษ มีการวิพากษ์วิจารณ์และหวาดกลัวสิ่งที่สื่อสังคมออนไลน์ทำกับเรามากมาย ตั้งแต่จิตวิทยาและประสาทวิทยาส่วนบุคคลไปจนถึงความกังวลที่กว้างขึ้นเกี่ยวกับความแข็งแกร่งของสังคมประชาธิปไตย ดังที่โจเซฟ เบิร์นสตีนกล่าวไว้เมื่อเร็วๆ นี้การเปลี่ยนจาก "ภูมิปัญญาของฝูงชน" เป็น "การบิดเบือนข้อมูล" นั้นเกิดขึ้นอย่างกะทันหัน

การบิดเบือนข้อมูลคืออะไร? มันมีอยู่จริงหรือไม่ และถ้ามี อยู่ที่ไหน และเรารู้ได้อย่างไรว่าเรากำลังดูมันอยู่? เราควรสนใจว่าอัลกอริธึมของแพลตฟอร์มที่เราโปรดปรานแสดงให้เราเห็นอย่างไรในขณะที่พวกเขาพยายามบีบความสนใจของเรา มันเป็นเพียงคำถามทางคณิตศาสตร์และสังคมศาสตร์ที่ซับซ้อนเหล่านั้นที่ได้ โนอาห์ เจียนซิรากูซ่า สนใจในเรื่อง

Giansiracusa ศาสตราจารย์แห่งมหาวิทยาลัย Bentley ในบอสตัน ได้รับการฝึกฝนด้านคณิตศาสตร์ (เน้นการวิจัยของเขาในด้านต่าง ๆ เช่น เรขาคณิตเกี่ยวกับพีชคณิต) แต่เขาก็ยังชอบที่จะมองหัวข้อทางสังคมผ่านเลนส์ทางคณิตศาสตร์ เช่น การเชื่อมต่อ เรขาคณิตเชิงคำนวณต่อศาลฎีกา. ล่าสุดเขาได้ตีพิมพ์หนังสือชื่อ “อัลกอริทึมสร้างและป้องกันข่าวปลอมได้อย่างไร” เพื่อสำรวจคำถามที่ท้าทายเกี่ยวกับภูมิทัศน์ของสื่อในปัจจุบัน และเทคโนโลยีที่ทวีความรุนแรงขึ้นและเยียวยาแนวโน้มเหล่านั้นอย่างไร

ฉันโฮสต์ Giansiracusa บน Twitter Space เมื่อเร็ว ๆ นี้ และเนื่องจาก Twitter ไม่ได้ทำให้ง่ายต่อการฟังการพูดคุยเหล่านี้ในภายหลัง (ชั่วคราว!) ฉันคิดว่าฉันจะดึงส่วนที่น่าสนใจที่สุดของการสนทนาของเราสำหรับคุณและลูกหลาน

การสัมภาษณ์ครั้งนี้ได้รับการแก้ไขและย่อให้ชัดเจน

แดนนี่ ไครชตัน: คุณตัดสินใจค้นคว้าข่าวปลอมและเขียนหนังสือเล่มนี้อย่างไร?

โนอาห์ เจียนซิรากูซ่า: สิ่งหนึ่งที่ฉันสังเกตเห็นคือมีการอภิปรายทางสังคมวิทยาและรัฐศาสตร์ที่น่าสนใจมากเกี่ยวกับข่าวปลอมและเรื่องเหล่านี้ แล้วในด้านเทคนิค คุณจะมีบางอย่างเช่น Mark Zuckerberg ที่บอกว่า AI กำลังจะแก้ไขปัญหาเหล่านี้ทั้งหมด ดูเหมือนยากหน่อยที่จะเชื่อมช่องว่างนั้น

ทุกคนคงเคยได้ยินคำพูดล่าสุดของไบเดนว่า “พวกเขากำลังฆ่าคน” เกี่ยวกับการบิดเบือนข้อมูลบนโซเชียลมีเดีย ดังนั้นเราจึงมีนักการเมืองพูดถึงสิ่งเหล่านี้ซึ่งเป็นเรื่องยากสำหรับพวกเขาที่จะเข้าใจด้านอัลกอริทึมจริงๆ แล้วเราก็มีคนวิทยาการคอมพิวเตอร์ที่ลงลึกในรายละเอียดจริงๆ ดังนั้นฉันจึงอยู่ระหว่างนั้น ฉันไม่ใช่คนที่ชอบวิทยาการคอมพิวเตอร์ตัวจริง เลยคิดว่าจะง่ายกว่านิดหน่อยที่จะถอยออกมาดูวิวมุมสูง

ในตอนท้ายของวัน ฉันรู้สึกว่าฉันต้องการสำรวจปฏิสัมพันธ์อื่นๆ กับสังคมที่สิ่งต่างๆ ยุ่งเหยิง ซึ่งคณิตศาสตร์ไม่ค่อยสะอาด

ไครตัน: มาจากพื้นฐานทางคณิตศาสตร์ คุณกำลังเข้าสู่พื้นที่ที่มีการโต้เถียง ซึ่งมีผู้คนจำนวนมากเขียนจากหลากหลายมุมมอง ผู้คนได้รับสิทธิอะไรในพื้นที่นี้และอะไรที่ผู้คนอาจพลาดความแตกต่างเล็กน้อย?

เกียนซิราคูซา: มีวารสารศาสตร์ที่น่าเหลือเชื่อมากมาย ฉันรู้สึกทึ่งที่นักข่าวจำนวนมากสามารถจัดการกับเรื่องทางเทคนิคที่สวยงามได้ แต่ฉันจะพูดอย่างหนึ่งที่บางทีพวกเขาอาจไม่ได้ผิด แต่ที่ทำให้ฉันหลงคือ มีหลายครั้งที่บทความทางวิชาการออกมา หรือแม้แต่การประกาศจาก Google หรือ Facebook หรือหนึ่งในบริษัทเทคโนโลยีเหล่านี้ และ พวกเขาจะพูดถึงบางสิ่งบางอย่าง และนักข่าวอาจจะดึงข้อความอ้างอิง และพยายามอธิบาย แต่ดูเหมือนพวกเขาจะกลัวเล็กน้อยที่จะพยายามมองและทำความเข้าใจมันจริงๆ และฉันไม่คิดว่าพวกเขาทำไม่ได้ ดูเหมือนเป็นการข่มขู่และความกลัวมากกว่า

สิ่งหนึ่งที่ฉันมีประสบการณ์มากมายในฐานะครูสอนคณิตศาสตร์คือผู้คนกลัวที่จะพูดอะไรผิดและทำผิดพลาด และสิ่งนี้มีไว้สำหรับนักข่าวที่ต้องเขียนเกี่ยวกับเรื่องทางเทคนิค พวกเขาไม่ต้องการพูดอะไรผิด ดังนั้นจึงง่ายกว่าที่จะอ้างข่าวประชาสัมพันธ์จาก Facebook หรือเสนอราคาผู้เชี่ยวชาญ

สิ่งหนึ่งที่สนุกและสวยงามมากเกี่ยวกับคณิตศาสตร์ล้วนๆ คือ คุณไม่ต้องกังวลว่าจะผิด คุณแค่ลองคิดและดูว่าแนวคิดเหล่านั้นนำไปสู่จุดใด และคุณเห็นการโต้ตอบทั้งหมดเหล่านี้ เมื่อคุณพร้อมที่จะเขียนบทความหรือบรรยาย คุณต้องตรวจสอบรายละเอียด แต่คณิตศาสตร์ส่วนใหญ่เป็นกระบวนการสร้างสรรค์ที่คุณกำลังสำรวจ และคุณแค่เห็นว่าความคิดโต้ตอบกันอย่างไร การฝึกอบรมของฉันในฐานะนักคณิตศาสตร์ที่คุณคิดว่าจะทำให้ฉันรู้สึกวิตกเกี่ยวกับการทำผิดพลาดและต้องแม่นยำมาก แต่มันก็มีผลตรงกันข้าม

ประการที่สอง สิ่งต่างๆ เกี่ยวกับอัลกอริทึมเหล่านี้ ไม่ได้ซับซ้อนอย่างที่คิด ฉันไม่ได้นั่งอยู่ที่นั่นเพื่อใช้งาน ฉันแน่ใจว่าการตั้งโปรแกรมมันยาก แต่แค่ภาพรวม อัลกอริธึมทั้งหมดนี้ในปัจจุบัน สิ่งเหล่านี้ส่วนใหญ่อาศัยการเรียนรู้อย่างลึกซึ้ง คุณมีโครงข่ายประสาท ไม่สำคัญสำหรับฉันในฐานะคนนอกว่าพวกเขาใช้สถาปัตยกรรมอะไร สิ่งที่สำคัญจริงๆ ก็คือ ตัวทำนายคืออะไร โดยทั่วไป ตัวแปรที่คุณป้อนอัลกอริธึมการเรียนรู้ของเครื่องนี้คืออะไร และมันพยายามจะสื่ออะไรออกมา? เป็นสิ่งที่ใครๆ ก็เข้าใจได้

ไครตัน: หนึ่งในความท้าทายครั้งใหญ่ที่ฉันคิดว่าต้องวิเคราะห์อัลกอริธึมเหล่านี้คือการขาดความโปร่งใส ต่างจากโลกของคณิตศาสตร์ล้วนๆ ซึ่งเป็นชุมชนของนักวิชาการที่ทำงานเพื่อแก้ปัญหา บริษัทเหล่านี้หลายแห่งสามารถเป็นปฏิปักษ์กับการให้ข้อมูลและการวิเคราะห์แก่ชุมชนในวงกว้างได้

เกียนซิราคูซา: ดูเหมือนว่าจะมีขีดจำกัดในสิ่งที่ทุกคนสามารถสรุปได้จากการเป็นคนภายนอก

ตัวอย่างที่ดีคือ YouTube ทีมนักวิชาการต้องการสำรวจว่าอัลกอริทึมการแนะนำของ YouTube ส่งผู้คนลงหลุมกระต่ายของทฤษฎีสมคบคิดหัวรุนแรงหรือไม่ ความท้าทายคือเพราะนี่คืออัลกอริธึมการแนะนำ ซึ่งใช้การเรียนรู้เชิงลึก โดยอิงจากตัวทำนายหลายร้อยรายการตามประวัติการค้นหาของคุณ ข้อมูลประชากร วิดีโออื่นๆ ที่คุณเคยดู และระยะเวลา — สิ่งเหล่านี้ทั้งหมด มันถูกปรับแต่งให้เหมาะกับคุณและประสบการณ์ของคุณมากจนการศึกษาทั้งหมดที่ฉันพบนั้นใช้โหมดไม่ระบุตัวตน

โดยพื้นฐานแล้วพวกเขาคือผู้ใช้ที่ไม่มีประวัติการค้นหา ไม่มีข้อมูล และพวกเขาจะไปที่วิดีโอแล้วคลิกวิดีโอแนะนำแรกแล้วคลิกวิดีโอถัดไป และมาดูกันว่าอัลกอริธึมพาผู้คนไปที่ไหน นั่นเป็นประสบการณ์ที่แตกต่างจากผู้ใช้จริงที่มีประวัติ และนี่เป็นเรื่องยากจริงๆ ฉันไม่คิดว่าจะมีใครคิดวิธีที่ดีในการสำรวจอัลกอริทึมของ YouTube จากภายนอกด้วยอัลกอริทึม

พูดตามตรง ทางเดียวที่ฉันคิดว่าคุณจะทำมันได้ก็เหมือนกับการเรียนในโรงเรียนเก่าที่คุณรับสมัครอาสาสมัครทั้งกลุ่ม และวางเครื่องติดตามบนคอมพิวเตอร์ของพวกเขาแล้วพูดว่า “เฮ้ ใช้ชีวิตในแบบที่คุณเป็น ปกติแล้วจะทำกับประวัติและทุกอย่างของคุณและบอกเราถึงวิดีโอที่คุณกำลังดูอยู่” ดังนั้นจึงเป็นเรื่องยากที่จะข้ามผ่านความจริงนี้ไป ว่าอัลกอริธึมเหล่านี้จำนวนมาก ซึ่งเกือบทั้งหมด ฉันคิดว่ามีพื้นฐานมาจากข้อมูลส่วนบุคคลของคุณ เราไม่ทราบวิธีการศึกษาโดยรวม

และไม่ใช่แค่ฉันหรือใครก็ตามที่อยู่ข้างนอกที่มีปัญหาเพราะเราไม่มีข้อมูล แม้แต่คนในบริษัทเหล่านี้ที่สร้างอัลกอริทึมและผู้ที่รู้ว่าอัลกอริทึมทำงานอย่างไรบนกระดาษ แต่พวกเขาไม่รู้ว่าจริง ๆ แล้วจะมีพฤติกรรมอย่างไร มันเหมือนกับสัตว์ประหลาดของแฟรงเกนสไตน์ พวกเขาสร้างสิ่งนี้ขึ้นมา แต่พวกเขาไม่รู้ว่ามันจะทำงานอย่างไร วิธีเดียวที่ฉันคิดว่าคุณสามารถศึกษาได้จริง ๆ คือถ้าผู้คนจากภายในที่มีข้อมูลนั้นพยายามอย่างเต็มที่และใช้เวลาและทรัพยากรในการศึกษา

ไครตัน: มีเมตริกมากมายที่ใช้ประเมินข้อมูลที่ผิดและพิจารณาการมีส่วนร่วมบนแพลตฟอร์ม จากพื้นฐานทางคณิตศาสตร์ของคุณ คุณคิดว่าการวัดเหล่านี้มีประสิทธิภาพหรือไม่

เกียนซิราคูซา: ผู้คนพยายามหักล้างข้อมูลเท็จ แต่ในกระบวนการนี้ พวกเขาอาจแสดงความคิดเห็น รีทวีตหรือแชร์ และนับเป็นการมีส่วนร่วม การวัดการมีส่วนร่วมจำนวนมากเหล่านี้ มองในแง่บวกหรือแค่การมีส่วนร่วมทั้งหมด? รู้ไหม มันมารวมกันเป็นก้อน

สิ่งนี้เกิดขึ้นในการวิจัยเชิงวิชาการด้วย การอ้างอิงเป็นตัวชี้วัดสากลของความสำเร็จของการวิจัย ของปลอมๆ อย่างเช่น กระดาษออทิสติกและวัคซีนดั้งเดิมของเวกฟีลด์ มีการอ้างถึงมากมาย หลายคนอ้างเพราะคิดว่ามันถูกต้อง แต่นักวิทยาศาสตร์ส่วนใหญ่กำลังหักล้างมัน พวกเขาอ้างมันในกระดาษเพื่อ บอกว่าเราแสดงให้เห็นว่าทฤษฎีนี้ผิด แต่อย่างใดการอ้างอิงก็คือการอ้างอิง ดังนั้นทั้งหมดจึงนับรวมในตัวชี้วัดความสำเร็จ

ฉันคิดว่านั่นเป็นสิ่งที่เกิดขึ้นกับการมีส่วนร่วม ถ้าฉันโพสต์บางอย่างในความคิดเห็นของฉันว่า "นี่มันบ้าไปแล้ว" อัลกอริทึมจะรู้ได้อย่างไรว่าฉันสนับสนุนมันหรือไม่ พวกเขาสามารถใช้การประมวลผลภาษา AI บางอย่างเพื่อลองได้ แต่ฉันไม่แน่ใจว่าใช่หรือไม่ และต้องใช้ความพยายามอย่างมากในการทำเช่นนั้น

ไครตัน: สุดท้ายนี้ ผมอยากจะพูดเล็กน้อยเกี่ยวกับ GPT-3 และความกังวลเกี่ยวกับสื่อสังเคราะห์และข่าวปลอม มีความกลัวมากมายที่บอท AI จะครอบงำสื่อด้วยการบิดเบือนข้อมูล – เราควรกลัวหรือไม่กลัวแค่ไหน?

เกียนซิราคูซา: เนื่องจากหนังสือของฉันเติบโตจากประสบการณ์ในชั้นเรียน ฉันต้องการพยายามที่จะไม่ลำเอียง และเพียงแค่แจ้งให้ผู้คนทราบและปล่อยให้พวกเขาตัดสินใจด้วยตัวเอง ฉันตัดสินใจที่จะพยายามตัดการอภิปรายนั้นและปล่อยให้ทั้งสองฝ่ายพูดจริงๆ ฉันคิดว่าอัลกอริธึมฟีดข่าวและอัลกอริธึมการรู้จำช่วยขยายสิ่งที่เป็นอันตรายจำนวนมาก และนั่นก็สร้างความเสียหายให้กับสังคม แต่ก็ยังมีความก้าวหน้าที่น่าทึ่งอีกมากในการใช้อัลกอริธึมอย่างมีประสิทธิผลและประสบความสำเร็จในการจำกัดข่าวปลอม

มีเทคโน-ยูโทเปียเหล่านี้ที่บอกว่า AI จะแก้ไขทุกอย่าง เราจะมีการบอกความจริง การตรวจสอบข้อเท็จจริง และอัลกอริธึมที่สามารถตรวจจับข้อมูลที่ผิดและลบออกได้ มีความคืบหน้าบ้าง แต่สิ่งนั้นจะไม่เกิดขึ้น และจะไม่มีวันประสบความสำเร็จอย่างเต็มที่ มันจะต้องพึ่งพามนุษย์อยู่เสมอ แต่อีกอย่างที่เรามีคือความกลัวที่ไม่มีเหตุผล มีไฮเปอร์โบลิก AI dystopia ประเภทนี้ที่อัลกอริธึมทรงพลังมาก คล้ายกับประเภทภาวะเอกฐานที่พวกมันกำลังจะทำลายเรา

เมื่อมีข่าวปลอมเกิดขึ้นครั้งแรกในปี 2018 และ GPT-3 ได้รับการเผยแพร่เมื่อสองสามปีที่แล้ว มีความหวาดกลัวว่า “โอ้ แย่จัง นี่จะทำให้ปัญหาของเราทั้งหมดเกี่ยวกับข่าวปลอมและเข้าใจว่าอะไรจริงในนั้น โลกยิ่งยากขึ้นมาก” และฉันคิดว่าตอนนี้เรามีระยะทางอีกสองสามปี เราจะเห็นว่าพวกเขาทำให้มันหนักขึ้นเล็กน้อย แต่ไม่มากเท่าที่เราคาดไว้ และประเด็นหลักคือประเภททางด้านจิตใจและเศรษฐกิจมากกว่าสิ่งใดๆ

ดังนั้น ผู้เขียนต้นฉบับของ GPT-3 จึงมีรายงานการวิจัยที่แนะนำอัลกอริธึม และหนึ่งในสิ่งที่พวกเขาทำคือการทดสอบที่พวกเขาวางข้อความบางส่วนและขยายไปยังบทความ จากนั้นพวกเขาก็ให้อาสาสมัครบางคนประเมินและเดาว่า เป็นบทความที่สร้างขึ้นโดยอัลกอริทึมและบทความใดเป็นบทความที่มนุษย์สร้างขึ้น พวกเขารายงานว่ามีความแม่นยำเกือบ 50% มาก ซึ่งหมายถึงแทบไม่เหนือการคาดเดาแบบสุ่มเลย นั่นฟังดูน่าทึ่งและน่ากลัว

แต่ถ้าคุณดูรายละเอียด พวกเขาขยายเหมือนพาดหัวบรรทัดเดียวถึงย่อหน้าของข้อความ หากคุณพยายามทำบทความฉบับเต็ม ไม่ว่าจะเป็น The Atlantic-length หรือ New Yorker-length Articles คุณจะเริ่มเห็นความคลาดเคลื่อน ความคิดจะคลาดเคลื่อน ผู้เขียนบทความนี้ไม่ได้กล่าวถึงเรื่องนี้ พวกเขาเพียงแค่ทำการทดลองและกล่าวว่า "เฮ้ ดูซิว่ามันประสบความสำเร็จขนาดไหน"

ดังนั้นจึงดูน่าเชื่อ พวกเขาสามารถสร้างบทความที่น่าประทับใจเหล่านี้ได้ แต่นี่คือเหตุผลหลักในท้ายที่สุด ทำไม GPT-3 จึงไม่เปลี่ยนแปลงมากเท่าข่าวปลอมและข้อมูลเท็จ และเรื่องทั้งหมดนี้เกี่ยวข้องกับ เป็นเพราะข่าวปลอมส่วนใหญ่เป็นขยะ มันเขียนได้ไม่ดี มีคุณภาพต่ำ ราคาถูกและรวดเร็วมาก คุณก็แค่จ่ายเงินให้หลานชายอายุ 16 ปีของคุณ ให้ปล่อยบทความข่าวปลอมออกมาในไม่กี่นาที

คณิตศาสตร์ไม่ได้ช่วยให้ฉันเห็นสิ่งนี้มากนัก เพียงแต่ว่า สิ่งสำคัญที่เราพยายามทำในวิชาคณิตศาสตร์คือต้องสงสัย ดังนั้นคุณต้องตั้งคำถามกับสิ่งเหล่านี้และสงสัยเล็กน้อย

ที่มา: https://techcrunch.com/2021/08/20/a-mathematician-walks-into-a-bar-of-disinformation/

ประทับเวลา:

เพิ่มเติมจาก TechCrunch