ทำไม AI ถึงล้มเหลวในป่า

โหนดต้นทาง: 751360

คุณจะไว้วางใจ AI กับชีวิตของคุณหรือไม่?

มีเรื่องราวที่ค่อนข้างโด่งดังในแวดวงการวิจัย AI เกี่ยวกับโมเดลโครงข่ายประสาทเทียมซึ่งก็คือ ฝึกแยกแยะระหว่างหมาป่ากับฮัสกี้. โมเดลเรียนรู้ที่จะระบุตัวตนได้สำเร็จ ทำให้ได้ภาพที่มีความแม่นยำสูงเมื่อให้ภาพที่ไม่ได้ใช้สำหรับการฝึก

อย่างไรก็ตาม ในไม่ช้าก็เห็นได้ชัดว่ามีบางอย่างผิดปกติ — ภาพที่ชัดเจนบางภาพถูกจัดประเภทผิด เมื่อพวกเขาพิจารณาว่าทำไมโครงข่ายประสาทเทียมจึงทำผิดพลาดอย่างร้ายแรง นักวิจัยพบว่าแบบจำลองนั้นเรียนรู้ที่จะจำแนกรูปภาพโดยพิจารณาจากว่ามีหิมะอยู่ในนั้นหรือไม่ - ภาพหมาป่าทั้งหมดที่ใช้ในการฝึกนั้นมีหิมะอยู่ด้านหลัง ของฮัสกี้ไม่ได้ ไม่น่าแปลกใจเลยที่โมเดลนี้ล้มเหลว

ตอนนี้ลองนึกภาพว่าเราต้องการที่จะสามารถช่วยได้ จับหมาจรจัดในป่าดังนั้นเราจึงแก้ไขโมเดลดังกล่าว และสอนให้แยกแยะระหว่างหมาป่ากับฮัสกี้ได้อย่างถูกต้อง โดยไม่คำนึงถึงสีพื้นหลัง เราฝังไว้ในอุปกรณ์ที่มีกล้อง ซึ่งเราจะแบ่งปันกับอาสาสมัครและเพื่อนๆ เราเชื่อว่าโมเดลของเราจะไม่พูดว่าฮัสกี้เมื่อเป็นหมาป่าจริงๆ แต่เรามั่นใจแค่ไหนว่าจะไม่มีอะไรมาทำลายโมเดลอีก จะเกิดอะไรขึ้นถ้านางแบบเห็นโคโยตี้? มันจะจัดเป็นหมาป่าตามขนาดหรือไม่? แล้วสุนัขจิ้งจอกล่ะ? หมี? เราเสี่ยงที่จะบอกเพื่อนของเราให้เข้าใกล้โดยหวังว่าพวกเขาจะรู้ว่าจริง ๆ แล้วสุนัขจรจัดเป็นหมีก่อนจะลงจากรถพร้อมกับสเต็กเนื้อฉ่ำอร่อย ๆ หรือไม่?

เครื่องเรียนรู้อะไร?

เทคนิคแมชชีนเลิร์นนิง โดยเฉพาะอย่างยิ่ง Neural Networks ประสบความสำเร็จอย่างมากจากปัญหามากมาย รวมถึงปัญหาที่ขึ้นชื่อเรื่องยาก เช่น การแปลและการรู้จำคำพูด ประโยชน์ของมันไม่อาจปฏิเสธได้ และด้วยเหตุนี้จึงแพร่หลายไปในหลากหลายแอพพลิเคชั่น

แม้จะมีความก้าวหน้าหลายครั้งในช่วง 12 ปีที่ผ่านมา แต่แนวทางปฏิบัติในปัจจุบันในชุมชนการวิจัย AI คือการทำวิจัยที่เพิ่มขึ้น การปรับปรุงระบบ AI ทำได้โดยใช้แบบจำลองที่ใหญ่ขึ้นและข้อมูลที่มากขึ้น ตามที่เพื่อนร่วมงานของฉัน Catarina เปิดเผยในบทความก่อนหน้า. ผลการดำเนินงานเป็นเศษส่วนและการมีอยู่ของป้ายบอกคะแนนได้สนับสนุนให้มีการปฏิบัติ

ตารางคะแนนเหล่านี้นำเสนอชุดข้อมูลสาธารณะสำหรับงานการประมวลผลภาษาธรรมชาติ (NLP) หลายงาน เช่น การตอบคำถาม การวิเคราะห์ความรู้สึก ความคล้ายคลึงกันทางความหมาย ฯลฯ นี่เป็นความคิดริเริ่มที่ยอดเยี่ยมเนื่องจากส่งเสริมให้นักวิจัยสร้างระบบที่เปรียบเทียบกันได้ อย่างไรก็ตาม ยังทำให้นักวิจัยปรับแต่งระบบสำหรับชุดข้อมูลเหล่านี้มากเกินไป ไม่ใช่ว่าสิ่งนี้ไม่เคยเกิดขึ้นมาก่อน แต่ท่ามกลางความฮือฮารอบ ๆ AI สิ่งนี้ได้ผ่านพ้นไปแล้ว

เช่นเดียวกับในปริศนาหมาป่ากับฮัสกี้ ปัญหาก็คือมีโมเดลจำนวนมากขึ้นเรื่อยๆ ที่บรรลุประสิทธิภาพที่สูงขึ้นโดยการเรียนรู้ลักษณะเฉพาะในข้อมูล แบบจำลองประสาทเป็นเหมือนกล่องดำ ซึ่งทำให้ยากต่อการยืนยันว่าแบบจำลองกำลังแก้ไขข้อมูลแทนที่จะเป็นงาน ดูเหมือนว่ามีคนไม่มากพอที่กังวลเกี่ยวกับเรื่องนี้ ดังนั้นโมเดลเหล่านี้จึงถูกนำไปใช้กับกรณีการใช้งานในชีวิตจริงก่อนกำหนด และเมื่อมีคนสังเกตเห็นว่าหิมะเป็นปัจจัยหนึ่ง ความเสียหายก็เสร็จสิ้น

มีสองสาเหตุหลักสำหรับปัญหาการเพิ่มประสิทธิภาพมากเกินไปเหล่านี้

1. เพิ่มประสิทธิภาพสำหรับสิ่งที่ผิด

โมเดลได้รับการปรับให้เหมาะสมสำหรับเมตริกที่คำนวณได้ง่ายและรวดเร็ว และสัมพันธ์กับเป้าหมายที่ต้องการ (หรือ "การวัด" ความสำเร็จในระดับหนึ่ง) ในระดับหนึ่ง ปัญหาของการทำแผนที่เป้าหมายที่ต้องการกับปริมาณที่วัดได้ง่ายได้รับการยอมรับมานานหลายทศวรรษในหลายสาขาวิชา โดยเฉพาะอย่างยิ่งในปี 1975 เมื่อนักเศรษฐศาสตร์ Charles Goodhart ตีพิมพ์บทความเกี่ยวกับกฎระเบียบทางเศรษฐกิจที่ทำให้สิ่งที่กลายเป็นที่รู้จักในชื่อ Goodhart's Law เป็นที่นิยม:

“เมื่อหน่วยวัดกลายเป็นหน่วยวัด มันก็จะสิ้นสุดการวัดผลที่ดี”

จับใจน้อยลง: “ความสม่ำเสมอทางสถิติใดๆ ที่สังเกตได้จะมีแนวโน้มที่จะยุบลงเมื่อมีการกดดันเพื่อวัตถุประสงค์ในการควบคุม” ไม่ว่ารูปแบบจะเป็นอย่างไร กฎหมายก็บอกเป็นนัยว่า เมื่อใดก็ตามที่วัดประสิทธิภาพของเราในแง่ของตัวเลข เราจะปรับให้เหมาะสมสำหรับตัวเลขนั้น กล่าวอีกนัยหนึ่งเราเล่นเกมเมตริก

โมเดล Neural Network จบลงด้วยการทำสิ่งเดียวกัน เมตริกที่ได้รับการปรับให้เหมาะสมเป็นเพียงพร็อกซีสำหรับการวัดประสิทธิภาพที่แท้จริง ไม่มีทางรับประกันได้ว่าโมเดลจะจับคู่กับประสิทธิภาพที่คาดหวังในโลกแห่งความเป็นจริง

ตัวอย่างเช่น โมเดลการแปลด้วยเครื่องประสาทได้รับการปรับให้เหมาะสมสำหรับ BLEU ซึ่งเป็นตัวชี้วัดที่เปรียบเทียบผลลัพธ์ของแบบจำลองกับการแปลอ้างอิงแบบคำต่อคำ ในโลกแห่งความเป็นจริง สิ่งที่สำคัญคือการแปลที่คล่องแคล่วและถูกต้อง แม้ว่าจะใช้ถ้อยคำแตกต่างไปจากประโยคเดิมก็ตาม

2. การเพิ่มประสิทธิภาพด้วยข้อมูลที่ไม่เป็นตัวแทน

เช่นเดียวกับในเรื่องการตรวจจับหิมะ โมเดลอันทรงพลังสามารถบรรลุประสิทธิภาพ (เมตริก) ที่สูงขึ้นได้ง่ายๆ โดยการเรียนรู้ลักษณะเฉพาะในข้อมูลการฝึกอบรม แต่ข้อมูลจริงอาจแตกต่างกันบ้างและไม่มีความซ้ำซากจำเจหรือความถี่โดยรวมของคำศัพท์ คลาส พื้นหลัง ฯลฯ เมื่อนำไปใช้กับสถานการณ์จริง โมเดลดังกล่าวจะมีความเอนเอียงอย่างหลีกเลี่ยงไม่ได้ต่อการเป็นตัวแทนที่พวกเขาเรียนรู้จากข้อมูลการฝึกอบรม หมาป่าในภูมิประเทศสีเขียวจะกลายเป็นแหบได้ง่าย

เมื่อใช้ข้อมูลที่ไม่เป็นตัวแทนในการฝึกอบรม ในบางครั้งเมื่อไม่มีการพิจารณาว่าข้อมูลการฝึกอบรมถูกรวบรวมอย่างไรหรือมาจากที่ใด อาจเป็นปัญหาได้มากในการใช้แบบจำลองกับสถานการณ์ที่แตกต่างจากที่ทราบ โมเดลกลายเป็นลำเอียง และในขณะที่อคติที่เรียนรู้โดยปริยายนี้อาจดูเหมือนไม่มีปัญหาในสถานการณ์เฉพาะนี้ (เว้นแต่แน่นอนว่ามีคนถูกทำร้าย) เมื่อมันเกิดขึ้นกับการขอสินเชื่อ เครดิตภาษีที่อยู่อาศัย แม้แต่การสัมภาษณ์งาน มันน่ากลัวที่จะคิดถึงความหมาย.

ปีที่แล้ว ศาลของรัฐแคลิฟอร์เนียตัดสินว่ามีอคติของมนุษย์มากเกินไปในการพิจารณาจำนวนเงินประกันตัวเป็นเงินสด ด้วยข้อโต้แย้งที่จะขจัดอคตินี้ออกไป พวกเขาผ่านกฎหมายกำหนดให้ใช้อัลกอริธึมในการประเมินความเสี่ยงของบุคคลที่ไม่ปรากฏตัวในศาลซึ่งพวกเขาคิดว่าจะให้มุมมองที่เป็นรูปธรรม แต่ข้อมูลการฝึกอบรมสำหรับอัลกอริธึมนี้มาจากไหน? เป็นไปได้มากที่สุดจากบันทึกทางประวัติศาสตร์ซึ่งมีอคติแบบเดียวกับที่อัลกอริธึมควรหลีกเลี่ยง

เข้าไปในป่า

โครงข่ายประสาทเทียมมีความมั่นใจในการคาดการณ์แม้ว่าจะไม่มีเหตุผลก็ตาม

หลังจากซ่อมโมเดลหมาป่ากับฮัสกี้แล้ว เราก็ยังคงมีปัญหาอยู่ มันจะทำนายอะไรเมื่อมันถูกป้อนด้วยภาพของหมาป่า สุนัขจิ้งจอก หรือแม้แต่หมี?

เรารู้ว่าโมเดลหมาป่ากับฮัสกี้ไม่รู้จักหมีเมื่อเห็น มันจะพยายามจำแนกว่าเป็นหมาป่าหรือแหบ แต่ปัญหาของแบบจำลองประสาทโดยทั่วไปคือความน่าจะเป็นที่พวกมันกำหนดให้กับเอาต์พุตที่กำหนดนั้นไม่ได้สะท้อนถึงความมั่นใจที่พวกเขามีในการทำนายนั้น ไม่สามารถนำมาเป็นค่าประมาณความเชื่อมั่นได้ โครงข่ายประสาทเทียมมีความมั่นใจในการคาดการณ์แม้ว่าจะไม่มีเหตุผลก็ตาม และแม้ว่าอินพุตจะแตกต่างอย่างมากจากสิ่งที่โมเดลเห็นระหว่างการฝึก เมื่อนางแบบพบกับรูปหมี ผลลัพธ์ที่ได้จะเป็นอะไรก็ได้ตั้งแต่หมาป่า 100% ไปจนถึงฮัสกี้ 100% จะเป็นการบรรเทาหรือไม่ถ้าโมเดลของเราจะส่งออก 50% / 50%? จากนั้นเราสามารถใช้มาตรการป้องกันเพื่อหลีกเลี่ยงไม่ให้เข้าใกล้

สิ่งที่เราต้องการให้แบบจำลองของเราแสดงความไม่แน่นอนสูงเมื่อต้องจัดการกับข้อมูลในภูมิภาคที่ไม่เคยเห็นมาก่อน “เราต้องการให้พวกเขา 'ล้มเหลวอย่างงดงาม' เมื่อใช้ในการผลิต” ตามที่ Anant Jain เขียนไว้ในโพสต์ของเขาใน Medium ซึ่งจะทำให้เราสามารถเชื่อคำทำนายของแบบจำลองของเราได้

น่าเสียดายที่แนวทางปฏิบัติในปัจจุบันคือการไว้วางใจโมเดลโดยพิจารณาจากประสิทธิภาพที่ได้รับภายใต้a เมตริกเดียว มากกว่า ชุดข้อมูลที่ไม่เป็นตัวแทน.

มีหวังไหม?

ปัญหาเหล่านี้ไม่สามารถแก้ไขได้ง่ายๆ พวกเขาต้องการความพยายามและเวลาจากนักวิจัย วิศวกร หน่วยงานกำกับดูแล ผู้ตัดสินใจและผู้กำหนดนโยบาย แต่มีความหวัง

เพื่อหลีกเลี่ยงการปรับให้เข้ากับเมตริกพร็อกซีตัวเดียวที่จะไม่สะท้อนในการวัดที่ต้องการจริง เราสามารถฝึกโมเดลโดยใช้เมตริกเสริม โมเดลที่ดีที่สุดควรเป็นแบบที่ทำงานได้ดีเท่ากันกับทุกรุ่น นอกจากนี้ เราควรพยายามอย่างมากในการวัดประสิทธิภาพเป็นระยะๆ ในโลกแห่งความเป็นจริง แม้ว่าจะเป็นเพียงตัวอย่างบางส่วนเท่านั้น (เนื่องจากสิ่งนี้มักจะต้องใช้ฝีมือมนุษย์)

เพื่อลดความลำเอียงโดยปริยายให้มากที่สุด ข้อมูลการฝึกอบรมที่เป็นตัวแทนมากขึ้นจะช่วยได้อย่างชัดเจน อย่างไรก็ตาม การรู้ว่าข้อมูลใดเป็นตัวแทนมากกว่านั้นเป็นสิ่งที่ท้าทาย สิ่งที่จะเป็นประโยชน์อย่างยิ่งคือการมีแบบจำลองที่สามารถอธิบายได้ หรือที่สามารถอธิบายสิ่งที่คาดการณ์ได้ นี่คือสิ่งที่จะช่วยให้เราสามารถระบุอคติของหมาป่ากับหิมะได้ทันที

ในที่สุด การสามารถเชื่อได้ว่าแบบจำลองใดที่คาดการณ์ไว้จะทำให้แอปพลิเคชัน AI นั้นปลอดภัยยิ่งขึ้น มนุษย์สามารถเข้าไปแทรกแซงได้ทุกเมื่อที่ความเชื่อมั่นไม่ถึงขีดจำกัด ซึ่งช่วยให้โมเดลทำงานได้อย่างยอดเยี่ยมในการจัดการกับข้อมูลที่พวกเขาได้รับการปรับแต่งอย่างแท้จริง

ที่ Unbabel เรากำลังเจอสุนัขฮัสกี้ หมาป่า และหมีอยู่ตลอดเวลา แต่การมีมนุษย์อยู่ในวงจร แก้ไขข้อผิดพลาดของแบบจำลองและประเมินคุณภาพที่แท้จริงของสิ่งที่เรานำเสนอ เราสามารถปรับปรุงแบบจำลองของเราต่อไปได้ วิธีที่เราประเมินโดยอัตโนมัติ.

ถอดความรองประธานฝ่ายเทคโนโลยีภาษาศาสตร์ของเรา อลอน ลาวี:

[ข้อเท็จจริง] ในทางปฏิบัติที่สำคัญที่สุดสำหรับเราคือผลการทดลองที่เราได้รับนั้นไม่ได้สรุปอย่างที่เราคิดและไม่ได้เป็นตัวแทนของสถานการณ์การแปลของเราในทางปฏิบัติ สิ่งนี้เกิดขึ้นตลอดเวลา

AI อยู่ที่นี่และเราได้รับประโยชน์มากมายจากมัน แต่เรากำลังถึงจุดเปลี่ยนซึ่งมีการใช้โครงข่ายประสาทเทียมอย่างกว้างขวางจนเราต้องรับผิดชอบมากขึ้นในการฝึกอบรม เราเห็นหมาป่ามากขึ้นเรื่อยๆ หิมะกำลังละลาย และเพื่อนๆ ของเราอยู่ข้างนอกนั่น บางทีเราควรโฟกัสที่การซ่อมสิ่งที่เสียไปก่อนที่จะสายเกินไป

ที่มา: https://unbabel.com/blog/artificial-intelligence-fails/

ประทับเวลา:

เพิ่มเติมจาก ปลดป้าย