นักวิจัยของ Google เพิ่มความแม่นยำในการรู้จำเสียงด้วยชุดข้อมูลมากขึ้น

โหนดต้นทาง: 809069

เข้าร่วม Transform 2021 12-16 กรกฎาคมนี้ ลงทะเบียนสำหรับr งาน AI แห่งปี.


จะเป็นอย่างไรหากกุญแจสำคัญในการปรับปรุงความแม่นยำในการรู้จำเสียงเพียงแค่ผสมชุดข้อมูลเสียงพูดที่มีอยู่ทั้งหมดเข้าด้วยกันเพื่อฝึกโมเดล AI ขนาดใหญ่เพียงโมเดลเดียว นั่นคือสมมติฐานที่อยู่เบื้องหลังการศึกษาล่าสุดที่เผยแพร่โดยทีมนักวิจัยที่สังกัด Google Research และ Google Brain พวกเขาอ้างชื่อโมเดล AI สตูว์คำพูด ที่ได้รับการฝึกอบรมเกี่ยวกับกลุ่มสุนทรพจน์ที่หลากหลายบรรลุผลลัพธ์ที่ล้ำสมัยหรือใกล้เคียงที่สุดจากเกณฑ์มาตรฐานการรู้จำเสียงที่หลากหลาย

การฝึกอบรมโมเดลสำหรับข้อมูลเพิ่มเติมมักจะทำได้ยาก เนื่องจากการรวบรวมและใส่คำอธิบายประกอบข้อมูลใหม่นั้นมีค่าใช้จ่ายสูง — โดยเฉพาะอย่างยิ่งในโดเมนเสียงพูด ยิ่งไปกว่านั้น การฝึกอบรมโมเดลขนาดใหญ่นั้นมีราคาแพงและไม่สามารถทำได้จริงสำหรับสมาชิกจำนวนมากในชุมชน AI

โซลูชันชุดข้อมูล

เพื่อค้นหาวิธีแก้ปัญหา นักวิจัยของ Google ได้รวมข้อมูลการรู้จำเสียงที่มีป้ายกำกับและไม่มีป้ายกำกับทั้งหมดที่มีอยู่ซึ่งรวบรวมโดยชุมชนในช่วงหลายปีที่ผ่านมา พวกเขาใช้ AMI ซึ่งเป็นชุดข้อมูลที่มีการบันทึกการประชุมประมาณ 100 ชั่วโมง รวมถึงองค์กรที่มี Switchboard (การโทรประมาณ 2,000 ชั่วโมง) Broadcast News (ข่าวโทรทัศน์ 50 ชั่วโมง) Librispeech (หนังสือเสียง 960 ชั่วโมง) และ ฝูงชนของ Mozilla เสียงสามัญ. ชุดข้อมูลที่รวมกันของพวกเขามีเวลาพูดมากกว่า 5,000 ชั่วโมง ซึ่งไม่มีการปรับเปลี่ยนจากรูปแบบเดิม

ด้วยชุดข้อมูลที่ประกอบขึ้น นักวิจัยใช้ Google Cloud TPU เพื่อฝึก SpeechStew ทำให้ได้โมเดลที่มีพารามิเตอร์มากกว่า 100 ล้านพารามิเตอร์ ในแมชชีนเลิร์นนิง พารามิเตอร์คือคุณสมบัติของข้อมูลที่โมเดลเรียนรู้ระหว่างกระบวนการฝึกอบรม นักวิจัยยังได้ฝึกฝนแบบจำลอง 1 พันล้านพารามิเตอร์ แต่ได้รับความเดือดร้อนจากประสิทธิภาพที่ลดลง

เมื่อทีมมีโมเดล SpeechStew สำหรับใช้งานทั่วไปแล้ว พวกเขาจึงทำการทดสอบกับ จำนวนเกณฑ์มาตรฐาน และพบว่าไม่เพียงมีประสิทธิภาพดีกว่าโมเดลที่พัฒนาก่อนหน้านี้เท่านั้น แต่ยังแสดงให้เห็นถึงความสามารถในการปรับตัวให้เข้ากับงานใหม่ที่ท้าทายอีกด้วย ใช้ประโยชน์จาก Chime-6 ซึ่งเป็นชุดข้อมูล 40 ชั่วโมงของการสนทนาทางไกลในบ้านที่บันทึกด้วยไมโครโฟน นักวิจัยได้ปรับแต่ง SpeechStew อย่างละเอียดเพื่อให้ได้ความแม่นยำตามแบบจำลองที่ซับซ้อนมากขึ้น

การถ่ายโอนการเรียนรู้หมายถึงการถ่ายโอนความรู้จากโดเมนหนึ่งไปยังอีกโดเมนหนึ่งโดยใช้ข้อมูลน้อยลง และสิ่งนี้ได้แสดงให้เห็นถึงคำมั่นสัญญาในสาขาย่อยต่างๆ ของ AI การใช้แบบจำลองอย่างเช่น SpeechStew ที่ออกแบบมาเพื่อทำความเข้าใจคำพูดทั่วไปและปรับแต่งในส่วนขอบ เป็นไปได้ที่ AI จะเข้าใจคำพูดในสำเนียงและสภาพแวดล้อมต่างๆ ได้

การใช้งานในอนาคต

เมื่อ VentureBeat ถามทางอีเมลว่าโมเดลการพูดเช่น SpeechStew อาจใช้ในการผลิตอย่างไร เช่น ในอุปกรณ์สำหรับผู้บริโภคหรือ API บนคลาวด์ นักวิจัยปฏิเสธที่จะคาดเดา แต่พวกเขามองเห็นแบบจำลองที่ทำหน้าที่เป็นตัวแทนวัตถุประสงค์ทั่วไปที่สามารถถ่ายโอนไปยังงานการรู้จำเสียงแบบดาวน์สตรีมจำนวนเท่าใดก็ได้

“เทคนิคง่ายๆ ในการปรับโมเดลวัตถุประสงค์ทั่วไปอย่างละเอียดเพื่องานการรู้จำเสียงแบบดาวน์สตรีมแบบใหม่นั้นเรียบง่าย ใช้งานได้จริง แต่ได้ผลอย่างน่าตกใจ” นักวิจัยกล่าว “สิ่งสำคัญคือต้องตระหนักว่าการกระจายของแหล่งข้อมูลอื่นไม่ตรงกับชุดข้อมูลที่สนใจอย่างสมบูรณ์ แต่ตราบใดที่มีการแสดงร่วมกันที่จำเป็นในการแก้ปัญหาทั้งสองงาน เราก็หวังว่าจะได้ผลลัพธ์ที่ดีขึ้นโดยการรวมชุดข้อมูลทั้งสองเข้าด้วยกัน”

VentureBeat

ภารกิจของ VentureBeat คือการเป็นจัตุรัสกลางเมืองดิจิทัลสำหรับผู้มีอำนาจตัดสินใจด้านเทคนิคเพื่อรับความรู้เกี่ยวกับเทคโนโลยีการเปลี่ยนแปลงและการทำธุรกรรม เว็บไซต์ของเราให้ข้อมูลที่จำเป็นเกี่ยวกับเทคโนโลยีข้อมูลและกลยุทธ์เพื่อแนะนำคุณในขณะที่คุณเป็นผู้นำองค์กรของคุณ เราขอเชิญคุณเข้าร่วมเป็นสมาชิกของชุมชนของเราเพื่อเข้าถึง:

  • ข้อมูลล่าสุดเกี่ยวกับเรื่องที่คุณสนใจ
  • จดหมายข่าวของเรา
  • เนื้อหาที่เป็นผู้นำทางความคิดที่มีรั้วรอบขอบชิดและการเข้าถึงส่วนลดสำหรับกิจกรรมอันมีค่าของเราเช่น แปลงร่าง 2021: เรียนรู้เพิ่มเติม
  • คุณสมบัติระบบเครือข่ายและอื่น ๆ

เป็นสมาชิก

ที่มา: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

ประทับเวลา:

เพิ่มเติมจาก VentureBeat