นักวิจัย Meta สร้าง AI ที่เรียนรู้ได้ดีเท่าๆ กันจากสื่อที่เป็นภาพ การเขียน หรือการพูด

โหนดต้นทาง: 1590449

ความก้าวหน้าในขอบเขตของ AI นั้นออกมาอย่างต่อเนื่อง แต่มักจะถูกจำกัดอยู่ในโดเมนเดียว ตัวอย่างเช่น วิธีการใหม่ที่ยอดเยี่ยมในการผลิตคำพูดสังเคราะห์ไม่ได้ ด้วย วิธีการจดจำการแสดงออกบนใบหน้าของมนุษย์ นักวิจัยของ Meta (AKA Facebook) กำลังทำงานเกี่ยวกับบางสิ่งที่ใช้งานได้หลากหลายมากขึ้น นั่นคือ AI ที่สามารถเรียนรู้ได้ด้วยตัวของมันเอง ไม่ว่าจะในสื่อการพูด การเขียน หรือภาพ

วิธีดั้งเดิมในการฝึกโมเดล AI เพื่อตีความบางสิ่งอย่างถูกต้องคือการยกตัวอย่างจำนวนมาก (เช่น หลายล้าน) ให้กับตัวอย่าง รูปภาพของแมวที่มีป้ายชื่อส่วนแมว การสนทนากับผู้พูดและคำพูด ฯลฯ แต่วิธีการดังกล่าวไม่เป็นที่นิยมอีกต่อไป เนื่องจากนักวิจัยพบว่าการสร้างฐานข้อมูลด้วยตนเองขนาดที่จำเป็นในการฝึกต่อไปนั้นเป็นไปไม่ได้อีกต่อไป -gen AIs ใครอยากติดป้ายรูปแมว 50 ล้าน? โอเค อาจมีคนไม่กี่คน แต่ใครล่ะที่ต้องการติดป้ายกำกับรูปภาพผักและผลไม้ทั่วไป 50 ล้านภาพ

ในปัจจุบัน ระบบ AI ที่มีแนวโน้มดีที่สุดบางระบบคือสิ่งที่เรียกว่า self-supervised: โมเดลที่สามารถทำงานได้จากข้อมูลจำนวนมากที่ไม่มีป้ายกำกับ เช่น หนังสือหรือวิดีโอของผู้คนที่โต้ตอบกัน และสร้างความเข้าใจอย่างมีโครงสร้างของตนเองว่ากฎเกณฑ์ต่างๆ ของระบบเป็นอย่างไร ตัวอย่างเช่น การอ่านหนังสือนับพันเล่ม จะเรียนรู้ตำแหน่งสัมพัทธ์ของคำและแนวคิดเกี่ยวกับโครงสร้างทางไวยากรณ์โดยที่ไม่มีใครบอกว่าวัตถุหรือบทความหรือเครื่องหมายจุลภาคคืออะไร ซึ่งได้มาจากการอนุมานจากตัวอย่างมากมาย

สิ่งนี้ให้ความรู้สึกเหมือนมนุษย์เรียนรู้โดยสัญชาตญาณมากขึ้น ซึ่งเป็นส่วนหนึ่งของเหตุผลที่นักวิจัยชอบมัน แต่ตัวแบบยังคงมีแนวโน้มที่จะเป็นแบบโมดอลเดี่ยว และงานทั้งหมดที่คุณทำเพื่อตั้งค่าระบบการเรียนรู้กึ่งควบคุมสำหรับการรู้จำคำพูดจะไม่นำไปใช้กับการวิเคราะห์ภาพเลย เพราะมีความแตกต่างกันมากเกินไป นั่นคือสิ่งที่การวิจัยล่าสุดของ Facebook/Meta data2vec . ที่มีชื่อติดหู, เข้ามา.

แนวคิดสำหรับ data2vec คือการสร้างเฟรมเวิร์ก AI ที่จะเรียนรู้ในลักษณะที่เป็นนามธรรมมากขึ้น หมายความว่าเริ่มต้นจากศูนย์ คุณสามารถให้หนังสืออ่านหรือรูปภาพเพื่อสแกนหรือพูดเพื่อให้ออกเสียง และหลังจากการฝึกอบรมเล็กน้อย เรียนรู้สิ่งเหล่านั้น มันเหมือนกับการเริ่มต้นด้วยเมล็ดเดียว แต่ขึ้นอยู่กับว่าคุณให้อาหารจากพืชชนิดใด มันจะเติบโตเป็นแดฟโฟดิล แพนซีหรือทิวลิป

การทดสอบ data2vec หลังจากปล่อยให้มันฝึกกับ data corpi ต่าง ๆ พบว่ามันสามารถแข่งขันกับโมเดลเฉพาะที่มีขนาดใกล้เคียงกันสำหรับ modality นั้นได้ (กล่าวคือ หากโมเดลทั้งหมดจำกัดไว้ที่ 100 เมกะไบต์ data2vec ก็ทำได้ดีกว่า — โมเดลเฉพาะทางอาจจะยังมีประสิทธิภาพเหนือกว่าเมื่อเติบโตขึ้น)

“แนวคิดหลักของแนวทางนี้คือการเรียนรู้โดยทั่วไปมากขึ้น: AI ควรเรียนรู้ที่จะทำงานต่างๆ มากมาย รวมถึงงานที่ไม่คุ้นเคยโดยสิ้นเชิง” เขียนทีมในโพสต์บล็อก. “เรายังหวังว่า data2vec จะทำให้เราใกล้ชิดกับโลกที่คอมพิวเตอร์ต้องการข้อมูลที่มีป้ายกำกับเพียงเล็กน้อยเพื่อทำงานให้สำเร็จ”

“ผู้คนได้สัมผัสกับโลกผ่านการผสมผสานของภาพ เสียง และคำพูด และระบบเช่นนี้ในวันหนึ่งอาจเข้าใจโลกอย่างที่เราทำ” Mark Zuckerberg CEO แสดงความคิดเห็นในการวิจัย

นี่ยังคงเป็นการวิจัยในระยะเริ่มต้น ดังนั้นอย่าคาดหวังว่า "AI ทั่วไป" ในตำนานจะปรากฎขึ้นในทันที แต่การมี AI ที่มีโครงสร้างการเรียนรู้ทั่วไปที่ทำงานร่วมกับโดเมนและประเภทข้อมูลต่างๆ ดูเหมือนจะดีกว่า โซลูชันที่หรูหรากว่าชุดของไมโครอัจฉริยะที่กระจัดกระจายที่เรามีอยู่ในปัจจุบัน

รหัสสำหรับ data2vec เป็นโอเพ่นซอร์ส และบางรุ่นที่ผ่านการฝึกอบรมมาแล้วที่นี่.

ที่มา: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-write-or-spoken-materials/

ประทับเวลา:

เพิ่มเติมจาก TechCrunch