การเรียนรู้แบบ Zero-shot อธิบายแล้ว

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

การเรียนรู้แบบ Zero-shot อธิบายแล้ว
บรูซ วอร์ริงตัน ผ่าน Unsplash

สาเหตุที่โมเดลแมชชีนเลิร์นนิงโดยทั่วไปฉลาดขึ้นนั้นเกิดจากการพึ่งพาการใช้ข้อมูลที่มีป้ายกำกับเพื่อช่วยให้แยกแยะระหว่างวัตถุสองอย่างที่คล้ายคลึงกัน

อย่างไรก็ตาม หากไม่มีชุดข้อมูลที่มีป้ายกำกับเหล่านี้ คุณจะพบกับอุปสรรคสำคัญในการสร้างโมเดลแมชชีนเลิร์นนิงที่มีประสิทธิภาพและน่าเชื่อถือที่สุด ชุดข้อมูลที่มีป้ายกำกับในระหว่างขั้นตอนการฝึกอบรมของแบบจำลองมีความสำคัญ

การเรียนรู้เชิงลึกถูกนำมาใช้อย่างแพร่หลายในการแก้ปัญหา เช่น คอมพิวเตอร์วิทัศน์โดยใช้การเรียนรู้แบบมีผู้สอน อย่างไรก็ตาม เช่นเดียวกับหลายๆ สิ่งในชีวิต มันมาพร้อมกับข้อจำกัด การจำแนกประเภทภายใต้การดูแลต้องการข้อมูลการฝึกอบรมที่มีป้ายกำกับในปริมาณและคุณภาพสูงเพื่อสร้างแบบจำลองที่มีประสิทธิภาพ ซึ่งหมายความว่าโมเดลการจัดประเภทไม่สามารถจัดการคลาสที่มองไม่เห็นได้

และเราทุกคนรู้ดีว่าต้องใช้พลังการคำนวณ การฝึกอบรมซ้ำ เวลา และเงินมากเพียงใดเพื่อฝึกฝนโมเดลการเรียนรู้เชิงลึก

แต่แบบจำลองยังสามารถแยกแยะระหว่างวัตถุสองชิ้นโดยไม่ต้องใช้ข้อมูลการฝึกอบรมได้หรือไม่ ใช่ มันเรียกว่าการเรียนรู้แบบไร้เป้าหมาย การเรียนรู้แบบ Zero-shot คือความสามารถของแบบจำลองในการทำงานให้สำเร็จโดยไม่ต้องได้รับหรือใช้ตัวอย่างการฝึกอบรมใดๆ

มนุษย์มีความสามารถในการเรียนรู้แบบ Zero-shot โดยธรรมชาติโดยไม่ต้องใช้ความพยายามมากนัก สมองของเรามีพจนานุกรมอยู่แล้วและอนุญาตให้เราแยกแยะวัตถุโดยการดูที่คุณสมบัติทางกายภาพเนื่องจากฐานความรู้ปัจจุบันของเรา เราสามารถใช้ฐานความรู้นี้เพื่อดูความเหมือนและความแตกต่างระหว่างวัตถุและค้นหาความเชื่อมโยงระหว่างวัตถุเหล่านั้น

ตัวอย่างเช่น สมมติว่าเรากำลังพยายามสร้างแบบจำลองการจำแนกประเภทของสัตว์ ตาม โลกของเราในข้อมูลมี 2.13 ล้านสปีชีส์ที่คำนวณได้ในปี 2021 ดังนั้น หากเราต้องการสร้างรูปแบบการจำแนกประเภทที่มีประสิทธิภาพที่สุดสำหรับสปีชีส์สัตว์ เราจะต้องมี 2.13 ล้านคลาสที่แตกต่างกัน จำเป็นต้องมีข้อมูลจำนวนมาก ข้อมูลปริมาณและคุณภาพสูงเป็นเรื่องยากที่จะพบเจอ

แล้ว Zero-shot Learning จะแก้ปัญหานี้ได้อย่างไร?

เนื่องจากการเรียนรู้แบบ Zero-shot ไม่ต้องการให้โมเดลต้องเรียนรู้ข้อมูลการฝึกอบรมและวิธีจัดประเภทคลาส จึงช่วยให้เราพึ่งพาความต้องการข้อมูลที่มีป้ายกำกับของโมเดลน้อยลง

ต่อไปนี้คือสิ่งที่ข้อมูลของคุณจะต้องประกอบด้วยเพื่อดำเนินการเรียนรู้แบบ Zero-shot

เห็นชั้นเรียน

ประกอบด้วยคลาสข้อมูลที่เคยใช้ฝึกโมเดลมาก่อน

ชั้นเรียนที่มองไม่เห็น

ประกอบด้วยคลาสข้อมูลที่ไม่ได้ใช้ในการฝึกโมเดลและโมเดลการเรียนรู้แบบ Zero-shot ใหม่จะสรุป

ข้อมูลเสริม

เนื่องจากข้อมูลในคลาสที่มองไม่เห็นนั้นไม่มีป้ายกำกับ การเรียนรู้แบบ Zero-shot จึงต้องการข้อมูลเสริมเพื่อเรียนรู้และค้นหาความสัมพันธ์ ลิงก์ และคุณสมบัติ ซึ่งอาจอยู่ในรูปแบบของการฝังคำ คำอธิบาย และข้อมูลเชิงความหมาย

วิธีการเรียนรู้แบบ Zero-shot

โดยทั่วไปจะใช้การเรียนรู้แบบ Zero-shot ใน:

วิธีการตามลักษณนาม
วิธีการตามอินสแตนซ์

การฝึกงาน

การเรียนรู้แบบ Zero-shot ใช้ในการสร้างแบบจำลองสำหรับชั้นเรียนที่ไม่ได้ฝึกโดยใช้ข้อมูลที่ติดป้าย ดังนั้นจึงต้องใช้สองขั้นตอนต่อไปนี้:

1 การอบรม

ขั้นตอนการฝึกอบรมเป็นกระบวนการของวิธีการเรียนรู้ที่พยายามรวบรวมความรู้เกี่ยวกับคุณภาพของข้อมูลให้ได้มากที่สุด เราสามารถมองว่าเป็นช่วงการเรียนรู้

2. การอนุมาน

ในระหว่างขั้นตอนการอนุมาน ความรู้ที่ได้เรียนรู้ทั้งหมดจากขั้นตอนการฝึกอบรมจะถูกนำไปใช้และนำไปใช้เพื่อจำแนกตัวอย่างออกเป็นคลาสชุดใหม่ เราสามารถมองว่าเป็นช่วงการทำนาย

มันทำงานอย่างไร

ความรู้จากคลาสที่มองเห็นจะถูกถ่ายโอนไปยังคลาสที่มองไม่เห็นในปริภูมิเวกเตอร์ที่มีมิติสูง สิ่งนี้เรียกว่าพื้นที่ความหมาย ตัวอย่างเช่น ในการจำแนกรูปภาพ พื้นที่ความหมายพร้อมกับรูปภาพจะต้องผ่านสองขั้นตอน:

1. พื้นที่ฝังร่วม

นี่คือที่ที่เวกเตอร์เชิงความหมายและเวกเตอร์ของคุณลักษณะภาพถูกฉายไปที่

2. ความคล้ายคลึงกันสูงสุด

นี่คือคุณสมบัติที่จับคู่กับคลาสที่มองไม่เห็น

เพื่อช่วยให้เข้าใจกระบวนการที่มีสองขั้นตอน (การฝึกอบรมและการอนุมาน) ลองนำไปใช้ในการจำแนกภาพ

การฝึกอบรม

การเรียนรู้แบบ Zero-shot อธิบายแล้ว
ยารี ไฮโตเนน ผ่าน Unsplash

ในฐานะมนุษย์ ถ้าคุณอ่านข้อความด้านขวาของภาพด้านบน คุณจะคิดทันทีว่ามีลูกแมว 4 ตัวอยู่ในตะกร้าสีน้ำตาล แต่สมมติว่าคุณไม่รู้ว่า 'ลูกแมว' คืออะไร คุณจะคิดว่ามีตะกร้าสีน้ำตาลที่มีของ 4 อย่างอยู่ข้างใน ซึ่งเรียกว่า 'ลูกแมว' เมื่อคุณพบรูปภาพที่มีสิ่งที่ดูเหมือน 'ลูกแมว' มากขึ้น คุณจะสามารถแยกความแตกต่างของ 'ลูกแมว' จากสัตว์อื่นๆ ได้

นี่คือสิ่งที่เกิดขึ้นเมื่อคุณใช้ การเตรียมการล่วงหน้าของภาษา-รูปภาพที่ขัดแย้งกัน (CLIP) โดย OpenAI สำหรับการเรียนรู้แบบ Zero-shot ในการจำแนกภาพ เป็นที่รู้จักกันว่าเป็นข้อมูลเสริม

คุณอาจกำลังคิดว่า 'นั่นเป็นเพียงข้อมูลที่มีป้ายกำกับ' ฉันเข้าใจว่าทำไมคุณถึงคิดอย่างนั้น แต่ก็ไม่เป็นเช่นนั้น ข้อมูลเสริมไม่ใช่ป้ายกำกับของข้อมูล แต่เป็นรูปแบบหนึ่งของการกำกับดูแลเพื่อช่วยให้โมเดลเรียนรู้ในระหว่างขั้นตอนการฝึกอบรม

เมื่อโมเดลการเรียนรู้แบบ Zero-shot เห็นการจับคู่ข้อความรูปภาพในจำนวนที่เพียงพอ ก็จะสามารถแยกความแตกต่างและเข้าใจวลีและวิธีที่วลีเหล่านี้มีความสัมพันธ์กับรูปแบบบางอย่างในรูปภาพ การใช้เทคนิค 'การเรียนรู้แบบเปรียบเทียบ' ของ CLIP ทำให้โมเดลการเรียนรู้แบบ Zero-shot สามารถรวบรวมฐานความรู้ที่ดีเพื่อให้สามารถคาดการณ์งานการจัดหมวดหมู่ได้

นี่คือบทสรุปของแนวทาง CLIP ที่พวกเขาฝึกตัวเข้ารหัสรูปภาพและตัวเข้ารหัสข้อความร่วมกันเพื่อคาดการณ์การจับคู่ที่ถูกต้องของตัวอย่างการฝึก (รูปภาพ ข้อความ) โปรดดูภาพด้านล่าง:

การเรียนรู้แบบ Zero-shot อธิบายแล้ว
การเรียนรู้แบบจำลองภาพที่สามารถถ่ายทอดได้จากการกำกับด้วยภาษาธรรมชาติ

การอนุมาน

เมื่อโมเดลได้ผ่านขั้นตอนการฝึกอบรมแล้ว โมเดลจะมีฐานความรู้ที่ดีเกี่ยวกับการจับคู่ข้อความรูปภาพ และตอนนี้สามารถใช้ในการคาดการณ์ได้ แต่ก่อนที่เราจะสามารถคาดการณ์ได้ เราต้องตั้งค่างานการจัดหมวดหมู่โดยสร้างรายการป้ายกำกับที่เป็นไปได้ทั้งหมดที่โมเดลสามารถส่งออกได้

ตัวอย่างเช่น ติดกับงานจำแนกรูปภาพเกี่ยวกับสายพันธุ์สัตว์ เราจะต้องมีรายชื่อสัตว์ทุกสายพันธุ์ ป้ายกำกับเหล่านี้แต่ละรายการจะถูกเข้ารหัส T? ถึง ที? โดยใช้ตัวเข้ารหัสข้อความที่ได้รับการฝึกอบรมล่วงหน้าซึ่งเกิดขึ้นในขั้นตอนการฝึกอบรม

เมื่อป้ายกำกับถูกเข้ารหัสแล้ว เราสามารถป้อนรูปภาพผ่านตัวเข้ารหัสรูปภาพที่ฝึกไว้ล่วงหน้าได้ เราจะใช้ความคล้ายคลึงกันของเมตริกโคไซน์ระยะทางในการคำนวณความคล้ายคลึงกันระหว่างการเข้ารหัสรูปภาพและการเข้ารหัสป้ายกำกับข้อความแต่ละรายการ

การจัดหมวดหมู่ของภาพจะขึ้นอยู่กับฉลากที่มีความคล้ายคลึงกับภาพมากที่สุด และนั่นคือวิธีการเรียนรู้แบบ Zero-shot โดยเฉพาะในการจำแนกภาพ

ความขาดแคลนของข้อมูล

ดังที่ได้กล่าวไว้ก่อนหน้านี้ ข้อมูลปริมาณและคุณภาพสูงเป็นเรื่องยากที่จะรับมือ ต่างจากมนุษย์ที่มีความสามารถในการเรียนรู้แบบ Zero-shot อยู่แล้ว เครื่องจักรต้องการข้อมูลที่มีป้ายกำกับเพื่อป้อนเข้าเพื่อเรียนรู้ จากนั้นจึงสามารถปรับให้เข้ากับความแปรปรวนที่อาจเกิดขึ้นตามธรรมชาติได้

หากเราดูตัวอย่างสัตว์ก็มีมากมาย และเนื่องจากจำนวนหมวดหมู่เพิ่มขึ้นอย่างต่อเนื่องในโดเมนต่างๆ จึงต้องใช้ความพยายามอย่างมากเพื่อให้ทันกับการรวบรวมข้อมูลที่มีคำอธิบายประกอบ

ด้วยเหตุนี้การเรียนรู้แบบ Zero-shot จึงมีค่ามากขึ้นสำหรับเรา นักวิจัยจำนวนมากขึ้นสนใจในการรู้จำแอตทริบิวต์โดยอัตโนมัติเพื่อชดเชยการขาดข้อมูลที่มีอยู่

การติดฉลากข้อมูล

ประโยชน์อีกประการของการเรียนรู้แบบ Zero-shot คือคุณสมบัติการติดฉลากข้อมูล การติดฉลากข้อมูลอาจใช้แรงงานมากและน่าเบื่อ ด้วยเหตุนี้จึงอาจนำไปสู่ข้อผิดพลาดในระหว่างกระบวนการ การติดฉลากข้อมูลต้องใช้ผู้เชี่ยวชาญ เช่น ผู้เชี่ยวชาญทางการแพทย์ที่ทำงานเกี่ยวกับชุดข้อมูลชีวการแพทย์ ซึ่งมีราคาแพงและใช้เวลานาน

การเรียนรู้แบบ Zero-shot กำลังเป็นที่นิยมมากขึ้นเนื่องจากข้อจำกัดของข้อมูลข้างต้น มีเอกสารสองสามฉบับที่ฉันอยากจะแนะนำให้คุณอ่านหากคุณสนใจในความสามารถของมัน:

ณิชา อารยา เป็นนักวิทยาศาสตร์ข้อมูลและนักเขียนด้านเทคนิคอิสระ เธอสนใจเป็นพิเศษในการให้คำแนะนำหรือแบบฝึกหัดเกี่ยวกับอาชีพ Data Science และความรู้ตามทฤษฎีเกี่ยวกับ Data Science นอกจากนี้ เธอยังปรารถนาที่จะสำรวจวิธีต่างๆ ที่ปัญญาประดิษฐ์มีประโยชน์ต่อชีวิตมนุษย์ที่ยืนยาว ผู้เรียนที่กระตือรือร้น แสวงหาการขยายความรู้ด้านเทคโนโลยีและทักษะการเขียนของเธอ พร้อมๆ กับช่วยแนะนำผู้อื่น