โมเดลการฝึกอบรม AI พารามิเตอร์ 100 ล้านล้าน

โหนดต้นทาง: 1642849
ภาพ

ระบบ AI ผู้แนะนำเป็นองค์ประกอบสำคัญของบริการอินเทอร์เน็ตในปัจจุบัน: ธุรกิจที่มีรายได้พันล้านดอลลาร์ เช่น Amazon และ Netflix นั้นได้รับแรงหนุนโดยตรงจากบริการแนะนำ

ผู้แนะนำ AI จะดีขึ้นเมื่อมีขนาดใหญ่ขึ้น ก่อนหน้านี้มีรุ่นหลายรุ่นที่มีพารามิเตอร์นับพันล้านตัวจนถึงล้านล้านตัวในช่วงเร็วๆ นี้ การเพิ่มความจุของรุ่นทุกครั้งทำให้คุณภาพดีขึ้นอย่างมาก ยุคของพารามิเตอร์ 100 ล้านล้านอยู่ใกล้แค่เอื้อม

โครงข่ายประสาทส่วนที่เหลือที่หนาแน่นและซับซ้อนนั้นใช้การคำนวณอย่างเข้มข้นมากขึ้นด้วย TFLOP มากกว่า 100 รายการในการทำซ้ำการฝึกอบรมแต่ละครั้ง ดังนั้นจึงเป็นเรื่องสำคัญที่จะต้องมีกลไกที่ซับซ้อนในการจัดการคลัสเตอร์ที่มีทรัพยากรต่างกันสำหรับงานฝึกอบรมดังกล่าว

เมื่อเร็วๆ นี้ Kwai Seattle AI Lab และ DS3 Lab จาก ETH Zurich ได้ร่วมมือกันเสนอระบบใหม่ชื่อ “Persia” เพื่อแก้ไขปัญหานี้ผ่านการออกแบบร่วมกันอย่างระมัดระวังทั้งอัลกอริธึมการฝึกอบรมและระบบการฝึกอบรม ในระดับอัลกอริธึม เปอร์เซียใช้อัลกอริธึมการฝึกอบรมแบบไฮบริดเพื่อจัดการกับเลเยอร์การฝังและโมดูลเครือข่ายประสาทเทียมหนาแน่นแตกต่างกัน เลเยอร์การฝังได้รับการฝึกฝนแบบอะซิงโครนัสเพื่อปรับปรุงปริมาณงานของตัวอย่างการฝึก ในขณะที่โครงข่ายประสาทเทียมส่วนที่เหลือได้รับการฝึกฝนแบบซิงโครนัสเพื่อรักษาประสิทธิภาพทางสถิติ ในระดับระบบ มีการใช้การปรับระบบให้เหมาะสมสำหรับการจัดการหน่วยความจำและการลดการสื่อสารที่หลากหลายเพื่อปลดปล่อยศักยภาพของอัลกอริธึมไฮบริดอย่างเต็มที่

ทรัพยากรระบบคลาวด์สำหรับโมเดล AI พารามิเตอร์ 100 ล้านล้าน

ภาระงาน AI พารามิเตอร์ 100 ล้านล้านของเปอร์เซียทำงานบนทรัพยากรที่แตกต่างกันต่อไปนี้:

Virtual Machines ที่มีการประมวลผลสูง 3,000 คอร์
8 A2 Virtual Machines เพิ่ม GPU Nvidia A64 ทั้งหมด 100 ตัว
เครื่องเสมือนหน่วยความจำสูง 30 เครื่อง แต่ละตัวมี RAM 12 TB รวมเป็น 360 TB
ประสานกับ Kubernetes
ต้องเปิดใช้ทรัพยากรทั้งหมดพร้อมกันในโซนเดียวกันเพื่อลดเวลาแฝงของเครือข่าย Google Cloud สามารถจัดหาความจุที่ต้องการได้ด้วยการแจ้งให้ทราบเพียงเล็กน้อย

การฝึกอบรม AI ต้องการทรัพยากรอย่างรวดเร็ว

Google Kubernetes Engine (GKE) ถูกใช้เพื่อจัดเตรียมการปรับใช้งาน 138 VM และคอนเทนเนอร์ซอฟต์แวร์ การมีคอนเทนเนอร์เวิร์กโหลดยังช่วยให้สามารถย้ายข้อมูลและทำซ้ำการฝึกอบรมได้อีกด้วย

ผลลัพธ์และข้อสรุป
ด้วยการสนับสนุนโครงสร้างพื้นฐานของ Google Cloud ทีมงานได้แสดงให้เห็นถึงความสามารถในการปรับขนาดของเปอร์เซียได้ถึง 100 ล้านล้านพารามิเตอร์ อัลกอริธึมการฝึกอบรมแบบกระจายแบบไฮบริดได้แนะนำการผ่อนคลายระบบอย่างละเอียดเพื่อการใช้งานคลัสเตอร์ที่ต่างกันอย่างมีประสิทธิภาพ ในขณะที่มาบรรจบกันเร็วเท่ากับวานิลลา SGD Google Cloud จำเป็นต่อการก้าวข้ามข้อจำกัดของฮาร์ดแวร์ภายในองค์กร และได้รับการพิสูจน์ว่าสภาพแวดล้อมการใช้คอมพิวเตอร์เหมาะสมที่สุดสำหรับการฝึกอบรม Machine Learning แบบกระจายในวงกว้าง

Persia ได้รับการเผยแพร่เป็นโครงการโอเพ่นซอร์สบน GitHub พร้อมคำแนะนำในการตั้งค่าสำหรับ Google Cloud — ทุกคนจากทั้งสถาบันการศึกษาและภาคอุตสาหกรรมจะพบว่ามันง่ายในการฝึกโมเดลตัวแนะนำการเรียนรู้เชิงลึกในระดับ 100 ล้านล้านพารามิเตอร์

Brian Wang เป็นผู้นำทางความคิดแห่งอนาคตและบล็อกเกอร์วิทยาศาสตร์ยอดนิยมที่มีผู้อ่าน 1 ล้านคนต่อเดือน บล็อก Nextbigfuture.com ของเขาอยู่ในอันดับที่ 1 บล็อกข่าววิทยาศาสตร์ ครอบคลุมเทคโนโลยีและแนวโน้มที่ก่อกวนมากมาย เช่น อวกาศ วิทยาการหุ่นยนต์ ปัญญาประดิษฐ์ การแพทย์ เทคโนโลยีชีวภาพต่อต้านวัย และนาโนเทคโนโลยี

เขาเป็นที่รู้จักในด้านการระบุเทคโนโลยีล้ำสมัย ปัจจุบันเขาเป็นผู้ร่วมก่อตั้งบริษัทสตาร์ทอัพและผู้ระดมทุนสำหรับบริษัทระยะเริ่มต้นที่มีศักยภาพสูง เขาเป็นหัวหน้าฝ่ายวิจัยเพื่อการจัดสรรสำหรับการลงทุนด้านเทคโนโลยีระดับลึกและเป็น Angel Investor ที่ Space Angels

เขาเป็นวิทยากรประจำในองค์กร เขาเป็นวิทยากร TEDx เป็นวิทยากรของ Singularity University และเป็นแขกรับเชิญในการสัมภาษณ์หลายครั้งทางวิทยุและพอดแคสต์ เขาเปิดให้พูดในที่สาธารณะและให้คำปรึกษา

ประทับเวลา:

เพิ่มเติมจาก อนาคตใหญ่ต่อไป