ตั้งค่าโครงการสรุปข้อความด้วยการกอดใบหน้า Transformers: ตอนที่ 1

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เมื่อ OpenAI เปิดตัวรุ่นที่สามของโมเดลแมชชีนเลิร์นนิง (ML) ที่เชี่ยวชาญด้านการสร้างข้อความในเดือนกรกฎาคม 2020 ฉันรู้ว่ามีบางอย่างแตกต่างออกไป รุ่นนี้โดนใจแบบที่ไม่เคยมีมาก่อน ทันใดนั้น ฉันก็ได้ยินเพื่อนและเพื่อนร่วมงานที่อาจสนใจเทคโนโลยีแต่โดยปกติไม่ได้สนใจเกี่ยวกับความก้าวหน้าล่าสุดในด้าน AI/ML มากนัก พูดคุยเกี่ยวกับเรื่องนี้ แม้แต่ผู้พิทักษ์ยังเขียน บทความ เกี่ยวกับมัน. หรือพูดให้ถูกคือ แบบ เขียนบทความและ Guardian ได้แก้ไขและเผยแพร่ ไม่มีการปฏิเสธ - จีพีที-3 เป็นผู้เปลี่ยนเกม

หลังจากที่โมเดลดังกล่าวออกสู่ตลาดแล้ว ผู้คนก็เริ่มคิดหาวิธีประยุกต์ใช้กับโมเดลดังกล่าวในทันที ภายในไม่กี่สัปดาห์ มีการสาธิตที่น่าประทับใจมากมาย ซึ่งสามารถพบได้บน เว็บไซต์ GPT-3. แอปพลิเคชั่นหนึ่งที่สะดุดตาฉันคือ สรุปข้อความ – ความสามารถของคอมพิวเตอร์ในการอ่านข้อความที่กำหนดและสรุปเนื้อหา เป็นงานที่ยากที่สุดงานหนึ่งสำหรับคอมพิวเตอร์เพราะเป็นการรวมสองฟิลด์ภายในฟิลด์ของการประมวลผลภาษาธรรมชาติ (NLP): ความเข้าใจในการอ่านและการสร้างข้อความ นั่นเป็นเหตุผลที่ฉันประทับใจมากกับการสาธิต GPT-3 สำหรับการสรุปข้อความ

คุณสามารถให้พวกเขาลองบน เว็บไซต์ Hugging Face Spaces. ที่ชอบที่สุดตอนนี้คือ an ใบสมัคร ที่สร้างบทสรุปของบทความข่าวที่มีเพียง URL ของบทความเป็นข้อมูลเข้า

ในชุดข้อมูลสองส่วนนี้ ฉันขอเสนอแนวทางปฏิบัติสำหรับองค์กร เพื่อให้คุณสามารถประเมินคุณภาพของรูปแบบการสรุปข้อความสำหรับโดเมนของคุณได้

ภาพรวมการสอน

หลายองค์กรที่ฉันทำงานด้วย (องค์กรการกุศล บริษัท องค์กรพัฒนาเอกชน) มีข้อความจำนวนมากที่จำเป็นต้องอ่านและสรุป เช่น รายงานทางการเงินหรือบทความข่าว เอกสารการวิจัยทางวิทยาศาสตร์ การขอจดสิทธิบัตร สัญญาทางกฎหมาย และอื่นๆ โดยธรรมชาติแล้ว องค์กรเหล่านี้มีความสนใจที่จะทำให้งานเหล่านี้เป็นไปโดยอัตโนมัติด้วยเทคโนโลยี NLP เพื่อแสดงศิลปะที่เป็นไปได้ ฉันมักจะใช้การสาธิตการสรุปข้อความ ซึ่งแทบไม่เคยล้มเหลวที่จะสร้างความประทับใจ

แต่ตอนนี้อะไร

ความท้าทายสำหรับองค์กรเหล่านี้คือต้องการประเมินโมเดลการสรุปข้อความโดยพิจารณาจากข้อมูลสรุปสำหรับเอกสารจำนวนมาก ทีละฉบับ ไม่ใช่ทีละฉบับ ไม่อยากจ้างเด็กฝึกงานที่มีหน้าที่เปิดใบสมัคร แปะเอกสาร กด สรุป ปุ่ม รอผลลัพธ์ ประเมินว่าสรุปดีหรือไม่ และทำใหม่ทั้งหมดอีกครั้งสำหรับเอกสารนับพัน

ฉันเขียนบทช่วยสอนนี้โดยนึกถึงตัวเองในอดีตเมื่อสี่สัปดาห์ก่อน – เป็นบทช่วยสอนที่ฉันหวังว่าจะมีในตอนนั้นเมื่อฉันเริ่มการเดินทางครั้งนี้ ในแง่นั้น ผู้ชมเป้าหมายของบทช่วยสอนนี้คือผู้ที่คุ้นเคยกับ AI/ML และเคยใช้โมเดล Transformer มาก่อน แต่อยู่ในช่วงเริ่มต้นของเส้นทางการสรุปข้อความและต้องการเจาะลึกลงไปในนั้น เนื่องจากเป็นบทความที่เขียนโดย “มือใหม่” และสำหรับมือใหม่ ผมอยากเน้นย้ำว่าบทช่วยสอนนี้เป็น a คู่มือปฏิบัติ – ไม่ คู่มือการปฏิบัติ โปรดรักษามันเหมือนว่า George EP Box ได้กล่าวว่า:

ในแง่ของความรู้ทางเทคนิคที่จำเป็นในบทช่วยสอนนี้: มันเกี่ยวข้องกับการเข้ารหัสบางอย่างใน Python แต่โดยส่วนใหญ่ เราเพียงแค่ใช้รหัสเพื่อเรียก API ดังนั้นจึงไม่จำเป็นต้องมีความรู้เชิงลึกในการเขียนโปรแกรมเช่นกัน การทำความคุ้นเคยกับแนวคิดบางอย่างของ ML นั้นมีประโยชน์ เช่น ความหมายของ รถไฟ และ ปรับใช้ แบบอย่าง แนวความคิดของ การอบรม, การตรวจสอบและ ทดสอบชุดข้อมูลและอื่นๆ ยังขลุกอยู่กับ ห้องสมุด Transformers ก่อนหน้านี้อาจมีประโยชน์เพราะเราใช้ไลบรารีนี้อย่างกว้างขวางตลอดบทช่วยสอนนี้ ฉันยังรวมลิงก์ที่เป็นประโยชน์สำหรับการอ่านเพิ่มเติมสำหรับแนวคิดเหล่านี้

เนื่องจากบทช่วยสอนนี้เขียนขึ้นโดยมือใหม่ ฉันไม่คาดหวังว่าผู้เชี่ยวชาญ NLP และผู้ปฏิบัติงานด้านการเรียนรู้เชิงลึกขั้นสูงจะได้รับบทช่วยสอนนี้มากนัก อย่างน้อยก็ไม่ใช่จากมุมมองทางเทคนิค – คุณอาจยังคงสนุกกับการอ่าน ดังนั้นอย่าเพิ่งจากไป! แต่คุณจะต้องอดทนกับการทำให้เข้าใจง่ายขึ้น ฉันพยายามดำเนินชีวิตตามแนวคิดในการทำทุกอย่างในบทช่วยสอนนี้ให้เรียบง่ายที่สุดเท่าที่จะทำได้ แต่ไม่ง่ายกว่านี้

โครงสร้างของบทช่วยสอนนี้

ชุดนี้ครอบคลุมสี่ส่วนโดยแบ่งออกเป็นสองโพสต์ ซึ่งเราจะทำขั้นตอนต่างๆ ของโครงการสรุปข้อความ ในโพสต์แรก (ส่วนที่ 1) เราเริ่มต้นด้วยการแนะนำตัววัดสำหรับงานสรุปข้อความ - การวัดประสิทธิภาพที่ช่วยให้เราสามารถประเมินว่าสรุปดีหรือไม่ดี นอกจากนี้เรายังแนะนำชุดข้อมูลที่เราต้องการสรุปและสร้างพื้นฐานโดยใช้แบบจำลองที่ไม่มี ML – เราใช้ฮิวริสติกอย่างง่ายเพื่อสร้างสรุปจากข้อความที่กำหนด การสร้างเส้นฐานนี้เป็นขั้นตอนที่สำคัญอย่างยิ่งในโครงการ ML ใดๆ เนื่องจากช่วยให้เราสามารถระบุจำนวนความคืบหน้าได้โดยใช้ AI ในอนาคต ทำให้เราตอบคำถามว่า “การลงทุนในเทคโนโลยี AI คุ้มค่าจริงหรือ?”

ในโพสต์ที่สอง เราใช้แบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าเพื่อสร้างบทสรุป (ส่วนที่ 2) เป็นไปได้ด้วยวิธีการที่ทันสมัยใน ML ที่เรียกว่า ถ่ายทอดการเรียนรู้. เป็นอีกขั้นตอนที่มีประโยชน์เพราะโดยพื้นฐานแล้วเราจะนำแบบจำลองที่วางจำหน่ายทั่วไปมาทดสอบกับชุดข้อมูลของเรา ซึ่งช่วยให้เราสร้างเส้นฐานอีกเส้นหนึ่ง ซึ่งช่วยให้เราเห็นว่าเกิดอะไรขึ้นเมื่อเราฝึกแบบจำลองบนชุดข้อมูลของเราจริงๆ วิธีการที่เรียกว่า การสรุปแบบไม่มีช็อตเนื่องจากโมเดลไม่มีการเปิดเผยชุดข้อมูลของเรา

หลังจากนั้น ก็ถึงเวลาใช้โมเดลที่ผ่านการฝึกอบรมล่วงหน้าและฝึกฝนบนชุดข้อมูลของเราเอง (ส่วนที่ 3) นี้เรียกอีกอย่างว่า ปรับจูน. ช่วยให้โมเดลเรียนรู้จากรูปแบบและลักษณะเฉพาะของข้อมูลของเราและค่อยๆ ปรับให้เข้ากับมัน หลังจากที่เราฝึกแบบจำลอง เราจะใช้แบบจำลองนี้เพื่อสร้างบทสรุป (ส่วนที่ 4)

เพื่อสรุป:

1 Part:
- ส่วนที่ 1: ใช้แบบจำลองที่ไม่มี ML เพื่อสร้างเส้นฐาน
2 หมายเลข:
- ส่วนที่ 2: สร้างสรุปด้วยแบบจำลองศูนย์ช็อต
- ส่วนที่ 3: ฝึกแบบจำลองการสรุป
- ส่วนที่ 4: ประเมินแบบจำลองที่ได้รับการฝึกอบรม

รหัสทั้งหมดสำหรับบทช่วยสอนนี้มีอยู่ในรายการต่อไปนี้ repo GitHub.

เราจะทำอะไรได้บ้างเมื่อสิ้นสุดบทช่วยสอนนี้

ในตอนท้ายของบทช่วยสอนนี้ เรา จะไม่ มีรูปแบบการสรุปข้อความที่ใช้ในการผลิตได้ เราจะไม่มีแม้แต่ ดี โมเดลสรุป (ใส่อีโมจิกรี๊ดที่นี่)!

สิ่งที่เราจะมีแทนคือจุดเริ่มต้นของเฟสต่อไปของโครงการซึ่งก็คือระยะทดลอง นี่คือที่มาของ "วิทยาศาสตร์" ในวิทยาศาสตร์ข้อมูล เพราะตอนนี้เป็นการทดลองกับแบบจำลองต่างๆ และการตั้งค่าต่างๆ เพื่อทำความเข้าใจว่าแบบจำลองการสรุปผลที่ดีเพียงพอสามารถฝึกด้วยข้อมูลการฝึกอบรมที่มีอยู่ได้หรือไม่

และเพื่อความโปร่งใสอย่างสมบูรณ์ มีโอกาสดีที่ข้อสรุปคือเทคโนโลยียังไม่สุกงอมและโครงการจะไม่ได้รับการดำเนินการ และคุณต้องเตรียมผู้มีส่วนได้ส่วนเสียในธุรกิจของคุณให้พร้อมสำหรับความเป็นไปได้นั้น แต่นั่นเป็นหัวข้อสำหรับโพสต์อื่น

ส่วนที่ 1: ใช้แบบจำลองที่ไม่มี ML เพื่อสร้างเส้นฐาน

นี่เป็นส่วนแรกของบทช่วยสอนของเราเกี่ยวกับการตั้งค่าโครงการสรุปข้อความ ในส่วนนี้ เราสร้างพื้นฐานโดยใช้แบบจำลองที่เรียบง่าย โดยไม่ต้องใช้ ML จริงๆ นี่เป็นขั้นตอนที่สำคัญมากในโปรเจ็กต์ ML ใดๆ เนื่องจากจะช่วยให้เราเข้าใจว่า ML มีมูลค่าเพิ่มเท่าใดในช่วงเวลาของโปรเจ็กต์ และหากคุ้มค่าที่จะลงทุนกับมัน

รหัสสำหรับบทช่วยสอนสามารถพบได้ในต่อไปนี้ repo GitHub.

ข้อมูล ข้อมูล ข้อมูล

ทุกโครงการ ML เริ่มต้นด้วยข้อมูล! หากเป็นไปได้ เราควรใช้ข้อมูลที่เกี่ยวข้องกับสิ่งที่เราต้องการบรรลุด้วยโครงการสรุปข้อความเสมอ ตัวอย่างเช่น หากเป้าหมายของเราคือการสรุปการยื่นขอสิทธิบัตร เราก็ควรใช้การยื่นคำขอรับสิทธิบัตรเพื่อฝึกแบบจำลอง ข้อแม้ใหญ่สำหรับโปรเจ็กต์ ML คือ ข้อมูลการฝึกอบรมมักจะต้องมีป้ายกำกับ ในบริบทของการสรุปข้อความ นั่นหมายความว่าเราจำเป็นต้องจัดเตรียมข้อความที่จะสรุปรวมทั้งสรุป (ป้ายกำกับ) โดยการให้ทั้งสองโมเดลเท่านั้นที่สามารถเรียนรู้ว่าบทสรุปที่ดีเป็นอย่างไร

ในบทช่วยสอนนี้ เราใช้ชุดข้อมูลที่เปิดเผยต่อสาธารณะ แต่ขั้นตอนและโค้ดยังคงเหมือนเดิมทุกประการหากเราใช้ชุดข้อมูลที่กำหนดเองหรือส่วนตัว และอีกครั้ง หากคุณมีเป้าหมายในใจสำหรับโมเดลการสรุปข้อความและมีข้อมูลที่เกี่ยวข้อง โปรดใช้ข้อมูลของคุณแทนเพื่อให้ได้ประโยชน์สูงสุดจากสิ่งนี้

ข้อมูลที่เราใช้คือ ชุดข้อมูล arXivซึ่งมีบทคัดย่อของเอกสาร arXiv รวมทั้งชื่อเรื่อง สำหรับจุดประสงค์ของเรา เราใช้บทคัดย่อเป็นข้อความที่เราต้องการสรุป และชื่อเรื่องเป็นข้อมูลอ้างอิงสรุป ขั้นตอนทั้งหมดของการดาวน์โหลดและประมวลผลข้อมูลล่วงหน้ามีอยู่ในรายการต่อไปนี้ สมุดบันทึก. เราต้องการ an AWS Identity และการจัดการการเข้าถึง (IAM) บทบาทที่อนุญาตให้โหลดข้อมูลเข้าและออกจาก บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) เพื่อเรียกใช้โน้ตบุ๊กนี้สำเร็จ ชุดข้อมูลได้รับการพัฒนาเป็นส่วนหนึ่งของกระดาษ เกี่ยวกับการใช้ ArXiv เป็นชุดข้อมูล และได้รับอนุญาตภายใต้ Creative Commons CC0 1.0 การอุทิศสาธารณสมบัติสากล.

ข้อมูลถูกแบ่งออกเป็นสามชุดข้อมูล: ข้อมูลการฝึกอบรม การตรวจสอบความถูกต้อง และการทดสอบ หากคุณต้องการใช้ข้อมูลของคุณเอง ตรวจสอบให้แน่ใจว่าเป็นกรณีนี้เช่นกัน ไดอะแกรมต่อไปนี้แสดงวิธีที่เราใช้ชุดข้อมูลต่างๆ

โดยทั่วไปแล้ว คำถามทั่วไป ณ จุดนี้คือ เราต้องการข้อมูลมากแค่ไหน? อย่างที่คุณคงเดาได้อยู่แล้ว คำตอบก็คือ ขึ้นอยู่กับ ขึ้นอยู่กับความเชี่ยวชาญของโดเมน (การสรุปคำขอรับสิทธิบัตรค่อนข้างแตกต่างจากการสรุปบทความข่าว) ความแม่นยำของแบบจำลองจะมีประโยชน์อย่างไร การฝึกอบรมแบบจำลองควรเสียค่าใช้จ่ายเท่าใด และอื่นๆ เรากลับมาที่คำถามนี้อีกครั้งในตอนที่เราฝึกโมเดลจริง ๆ แต่ประเด็นสั้นก็คือ เราต้องลองขนาดชุดข้อมูลต่างๆ เมื่อเราอยู่ในขั้นตอนการทดลองของโปรเจ็กต์

โมเดลที่ดีเกิดจากอะไร?

ในโปรเจ็กต์ ML หลายๆ โปรเจ็กต์ การวัดประสิทธิภาพของโมเดลนั้นค่อนข้างตรงไปตรงมา เนื่องจากมักมีความคลุมเครือเล็กน้อยว่าผลลัพธ์ของแบบจำลองนั้นถูกต้องหรือไม่ ป้ายกำกับในชุดข้อมูลมักเป็นแบบไบนารี (จริง/เท็จ ใช่/ไม่ใช่) หรือตามหมวดหมู่ ไม่ว่าในกรณีใด ในสถานการณ์นี้ เป็นเรื่องง่ายในการเปรียบเทียบเอาต์พุตของโมเดลกับป้ายกำกับ และทำเครื่องหมายว่าถูกต้องหรือไม่ถูกต้อง

เมื่อสร้างข้อความ สิ่งนี้จะยากขึ้น ข้อมูลสรุป (ป้ายกำกับ) ที่เราให้ไว้ในชุดข้อมูลเป็นเพียงวิธีเดียวในการสรุปข้อความ แต่มีความเป็นไปได้มากมายที่จะสรุปข้อความที่กำหนด ดังนั้น แม้ว่าโมเดลจะไม่ตรงกับป้ายกำกับของเรา 1:1 ผลลัพธ์ก็อาจเป็นข้อมูลสรุปที่ถูกต้องและมีประโยชน์ แล้วเราจะเปรียบเทียบข้อมูลสรุปของแบบจำลองกับข้อมูลที่เรามีให้ได้อย่างไร ตัวชี้วัดที่ใช้บ่อยที่สุดในการสรุปข้อความเพื่อวัดคุณภาพของแบบจำลองคือ คะแนน ROUGE. หากต้องการทำความเข้าใจกลไกของเมตริกนี้ โปรดดูที่ ตัวชี้วัดประสิทธิภาพขั้นสูงสุดใน NLP. โดยสรุป คะแนน ROUGE จะวัดความเหลื่อมล้ำของ n-กรัม (ลำดับต่อเนื่องกันของ n รายการ) ระหว่างข้อมูลสรุปของโมเดล (สรุปผู้สมัคร) และสรุปข้อมูลอ้างอิง (ป้ายกำกับที่เราให้ไว้ในชุดข้อมูลของเรา) แต่แน่นอนว่านี่ไม่ใช่มาตรการที่สมบูรณ์แบบ เพื่อทำความเข้าใจข้อจำกัด โปรดดูที่ เพื่อ ROUGE หรือไม่ ROUGE?

แล้วเราจะคำนวณคะแนน ROUGE ได้อย่างไร? มีแพ็คเกจ Python อยู่สองสามตัวในการคำนวณตัวชี้วัดนี้ เพื่อให้เกิดความสม่ำเสมอ เราควรใช้วิธีการเดียวกันตลอดทั้งโครงการ เนื่องจากในตอนหลังของบทช่วยสอนนี้ เราจะใช้สคริปต์การฝึกอบรมจากไลบรารี Transformers แทนการเขียนของเราเอง เราสามารถดูได้ รหัสแหล่งที่มา ของสคริปต์และคัดลอกโค้ดที่คำนวณคะแนน ROUGE:

from datasets import load_metric
metric = load_metric("rouge") def calc_rouge_scores(candidates, references): result = metric.compute(predictions=candidates, references=references, use_stemmer=True) result = {key: round(value.mid.fmeasure * 100, 1) for key, value in result.items()} return result

เมื่อใช้วิธีนี้ในการคำนวณคะแนน เรารับรองว่าเราจะเปรียบเทียบแอปเปิลกับแอปเปิลตลอดโครงการเสมอ

ฟังก์ชันนี้คำนวณคะแนน ROUGE หลายคะแนน: rouge1, rouge2, rougeLและ rougeLsum. “ผลรวม” ใน rougeLsum หมายถึงความจริงที่ว่าตัวชี้วัดนี้ถูกคำนวณโดยสรุปทั้งหมดในขณะที่ rougeL คำนวณเป็นค่าเฉลี่ยในแต่ละประโยค ดังนั้น เราควรใช้คะแนน ROUGE ใดสำหรับโครงการของเรา อีกครั้ง เราต้องลองวิธีการต่างๆ ในระยะทดลอง สำหรับสิ่งที่คุ้มค่า, กระดาษ ROUGE ดั้งเดิม ระบุว่า "ROUGE-2 และ ROUGE-L ทำงานได้ดีในงานสรุปเอกสารเดียว" ในขณะที่ "ROUGE-1 และ ROUGE-L ทำงานได้ดีในการประเมินการสรุปแบบสั้น"

สร้างพื้นฐาน

ขั้นต่อไป เราต้องการสร้างพื้นฐานโดยใช้โมเดลแบบไม่มี ML ที่เรียบง่าย นั่นหมายความว่าอย่างไร? ในด้านของการสรุปข้อความ การศึกษาจำนวนมากใช้วิธีการที่ง่ายมาก: พวกเขาใช้ข้อแรก n ประโยคของข้อความและประกาศเป็นบทสรุปของผู้สมัคร จากนั้นพวกเขาจะเปรียบเทียบข้อมูลสรุปของผู้สมัครกับข้อมูลสรุปอ้างอิงและคำนวณคะแนน ROUGE นี่เป็นแนวทางที่เรียบง่ายแต่ทรงพลังที่เราสามารถนำมาใช้ในโค้ดไม่กี่บรรทัด (โค้ดทั้งหมดสำหรับส่วนนี้มีดังต่อไปนี้ สมุดบันทึก):

import re ref_summaries = list(df_test['summary']) for i in range (3): candidate_summaries = list(df_test['text'].apply(lambda x: ' '.join(re.split(r'(?<=[.:;])s', x)[:i+1]))) print(f"First {i+1} senctences: Scores {calc_rouge_scores(candidate_summaries, ref_summaries)}")

เราใช้ชุดข้อมูลทดสอบสำหรับการประเมินนี้ สิ่งนี้สมเหตุสมผลเพราะหลังจากที่เราฝึกโมเดล เรายังใช้ชุดข้อมูลทดสอบเดียวกันสำหรับการประเมินขั้นสุดท้าย เรายังลองตัวเลขที่แตกต่างกันสำหรับ n: เราเริ่มต้นด้วยประโยคแรกเท่านั้นที่เป็นบทสรุปของผู้สมัคร จากนั้นจึงเริ่มจากสองประโยคแรก และสุดท้ายคือสามประโยคแรก

ภาพหน้าจอต่อไปนี้แสดงผลสำหรับรุ่นแรกของเรา

คะแนน ROUGE สูงที่สุด โดยมีเพียงประโยคแรกเท่านั้นที่เป็นบทสรุปของผู้สมัคร ซึ่งหมายความว่าการใส่มากกว่าหนึ่งประโยคจะทำให้บทสรุปนั้นละเอียดเกินไปและนำไปสู่คะแนนที่ต่ำลง นั่นหมายความว่าเราจะใช้คะแนนสำหรับบทสรุปหนึ่งประโยคเป็นพื้นฐานของเรา

สิ่งสำคัญคือต้องสังเกตว่า สำหรับวิธีการง่ายๆ ดังกล่าว ตัวเลขเหล่านี้ค่อนข้างดี โดยเฉพาะอย่างยิ่งสำหรับ rouge1 คะแนน. เพื่อใส่ตัวเลขเหล่านี้ในบริบท เราสามารถอ้างถึง รุ่น Pegasusซึ่งแสดงคะแนนของแบบจำลองที่ล้ำสมัยสำหรับชุดข้อมูลต่างๆ

บทสรุปและจะเป็นอย่างไรต่อไป

ในส่วนที่ 1 ของชุดข้อมูล เราได้แนะนำชุดข้อมูลที่เราใช้ตลอดทั้งโครงการสรุปรวมทั้งเมตริกเพื่อประเมินผลสรุป จากนั้นเราได้สร้างพื้นฐานต่อไปนี้ด้วยโมเดลแบบไม่มี ML ที่เรียบง่าย

ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร โพสต์ต่อไปเราใช้โมเดล Zero-shot โดยเฉพาะอย่างยิ่ง โมเดลที่ได้รับการฝึกอบรมมาโดยเฉพาะสำหรับการสรุปข้อความในบทความข่าวสาธารณะ อย่างไรก็ตาม โมเดลนี้จะไม่ได้รับการฝึกเลยในชุดข้อมูลของเรา (ด้วยเหตุนี้จึงเรียกว่า “ซีโรช็อต”)

ฉันปล่อยให้คุณทำการบ้านเพื่อเดาว่าโมเดล Zero-shot นี้จะทำงานได้ดีเพียงใดเมื่อเทียบกับเส้นฐานที่ง่ายมากของเรา ในอีกด้านหนึ่ง มันจะเป็นโมเดลที่ซับซ้อนกว่ามาก (จริงๆ แล้วมันเป็นโครงข่ายประสาทเทียม) ในทางกลับกัน ใช้เพื่อสรุปบทความข่าวเท่านั้น ดังนั้นจึงอาจมีปัญหากับรูปแบบที่มีอยู่ในชุดข้อมูล arXiv

เกี่ยวกับผู้เขียน

ไฮโกะ ฮ็อตซ์ เป็นสถาปนิกโซลูชันอาวุโสสำหรับ AI & Machine Learning และเป็นผู้นำชุมชน Natural Language Processing (NLP) ภายใน AWS ก่อนหน้าที่จะรับตำแหน่งนี้ เขาเป็นหัวหน้าฝ่ายวิทยาศาสตร์ข้อมูลสำหรับฝ่ายบริการลูกค้าในสหภาพยุโรปของ Amazon Heiko ช่วยให้ลูกค้าของเราประสบความสำเร็จในการเดินทาง AI/ML บน AWS และได้ทำงานร่วมกับองค์กรในหลายอุตสาหกรรม รวมถึงการประกันภัย บริการทางการเงิน สื่อและความบันเทิง การดูแลสุขภาพ ยูทิลิตี้ และการผลิต ในเวลาว่าง Heiko เดินทางให้มากที่สุด

ประทับเวลา: March 23, 2022

ประทับเวลา: ตุลาคม 24, 2023

ตั้งค่าโครงการสรุปข้อความด้วย Hugging Face Transformers: ตอนที่ 1

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมการสอน

โครงสร้างของบทช่วยสอนนี้

เราจะทำอะไรได้บ้างเมื่อสิ้นสุดบทช่วยสอนนี้

ส่วนที่ 1: ใช้แบบจำลองที่ไม่มี ML เพื่อสร้างเส้นฐาน

ข้อมูล ข้อมูล ข้อมูล

โมเดลที่ดีเกิดจากอะไร?

สร้างพื้นฐาน

บทสรุปและจะเป็นอย่างไรต่อไป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

วิธีขยายฟังก์ชันการทำงานของ AWS Trainium ด้วยตัวดำเนินการแบบกำหนดเอง

ขอแนะนำ Amazon CodeWhisperer คู่หูการเข้ารหัสที่ขับเคลื่อนด้วย ML

ปรับแต่งผลการค้นหาในแบบของคุณด้วยการผสานรวม Amazon Personalize และ Amazon OpenSearch Service | อเมซอนเว็บเซอร์วิส

การประมวลผลเอกสารอัจฉริยะด้วย Amazon Textract, Amazon Bedrock และ LangChain | อเมซอนเว็บเซอร์วิส

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้