นักวิจัยของ Google เพิ่มความแม่นยำในการรู้จำเสียงด้วยชุดข้อมูลที่มากขึ้น

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

เข้าร่วม Transform 2021 12-16 กรกฎาคมนี้ ลงทะเบียนสำหรับ r งาน AI แห่งปี.

จะเป็นอย่างไรหากกุญแจสำคัญในการปรับปรุงความแม่นยำในการรู้จำเสียงเพียงแค่ผสมชุดข้อมูลเสียงพูดที่มีอยู่ทั้งหมดเข้าด้วยกันเพื่อฝึกโมเดล AI ขนาดใหญ่เพียงโมเดลเดียว นั่นคือสมมติฐานที่อยู่เบื้องหลังการศึกษาล่าสุดที่เผยแพร่โดยทีมนักวิจัยที่สังกัด Google Research และ Google Brain พวกเขาอ้างชื่อโมเดล AI สตูว์คำพูด ที่ได้รับการฝึกอบรมเกี่ยวกับกลุ่มสุนทรพจน์ที่หลากหลายบรรลุผลลัพธ์ที่ล้ำสมัยหรือใกล้เคียงที่สุดจากเกณฑ์มาตรฐานการรู้จำเสียงที่หลากหลาย

การฝึกอบรมโมเดลสำหรับข้อมูลเพิ่มเติมมักจะทำได้ยาก เนื่องจากการรวบรวมและใส่คำอธิบายประกอบข้อมูลใหม่นั้นมีค่าใช้จ่ายสูง — โดยเฉพาะอย่างยิ่งในโดเมนเสียงพูด ยิ่งไปกว่านั้น การฝึกอบรมโมเดลขนาดใหญ่นั้นมีราคาแพงและไม่สามารถทำได้จริงสำหรับสมาชิกจำนวนมากในชุมชน AI

โซลูชันชุดข้อมูล

เพื่อค้นหาวิธีแก้ปัญหา นักวิจัยของ Google ได้รวมข้อมูลการรู้จำเสียงที่มีป้ายกำกับและไม่มีป้ายกำกับทั้งหมดที่มีอยู่ซึ่งรวบรวมโดยชุมชนในช่วงหลายปีที่ผ่านมา พวกเขาใช้ AMI ซึ่งเป็นชุดข้อมูลที่มีการบันทึกการประชุมประมาณ 100 ชั่วโมง รวมถึงองค์กรที่มี Switchboard (การโทรประมาณ 2,000 ชั่วโมง) Broadcast News (ข่าวโทรทัศน์ 50 ชั่วโมง) Librispeech (หนังสือเสียง 960 ชั่วโมง) และ ฝูงชนของ Mozilla เสียงสามัญ. ชุดข้อมูลที่รวมกันของพวกเขามีเวลาพูดมากกว่า 5,000 ชั่วโมง ซึ่งไม่มีการปรับเปลี่ยนจากรูปแบบเดิม

ด้วยชุดข้อมูลที่ประกอบขึ้น นักวิจัยใช้ Google Cloud TPU เพื่อฝึก SpeechStew ทำให้ได้โมเดลที่มีพารามิเตอร์มากกว่า 100 ล้านพารามิเตอร์ ในแมชชีนเลิร์นนิง พารามิเตอร์คือคุณสมบัติของข้อมูลที่โมเดลเรียนรู้ระหว่างกระบวนการฝึกอบรม นักวิจัยยังได้ฝึกฝนแบบจำลอง 1 พันล้านพารามิเตอร์ แต่ได้รับความเดือดร้อนจากประสิทธิภาพที่ลดลง

เมื่อทีมมีโมเดล SpeechStew สำหรับใช้งานทั่วไปแล้ว พวกเขาจึงทำการทดสอบกับ จำนวนเกณฑ์มาตรฐาน และพบว่าไม่เพียงมีประสิทธิภาพดีกว่าโมเดลที่พัฒนาก่อนหน้านี้เท่านั้น แต่ยังแสดงให้เห็นถึงความสามารถในการปรับตัวให้เข้ากับงานใหม่ที่ท้าทายอีกด้วย ใช้ประโยชน์จาก Chime-6 ซึ่งเป็นชุดข้อมูล 40 ชั่วโมงของการสนทนาทางไกลในบ้านที่บันทึกด้วยไมโครโฟน นักวิจัยได้ปรับแต่ง SpeechStew อย่างละเอียดเพื่อให้ได้ความแม่นยำตามแบบจำลองที่ซับซ้อนมากขึ้น

การถ่ายโอนการเรียนรู้หมายถึงการถ่ายโอนความรู้จากโดเมนหนึ่งไปยังอีกโดเมนหนึ่งโดยใช้ข้อมูลน้อยลง และสิ่งนี้ได้แสดงให้เห็นถึงคำมั่นสัญญาในสาขาย่อยต่างๆ ของ AI การใช้แบบจำลองอย่างเช่น SpeechStew ที่ออกแบบมาเพื่อทำความเข้าใจคำพูดทั่วไปและปรับแต่งในส่วนขอบ เป็นไปได้ที่ AI จะเข้าใจคำพูดในสำเนียงและสภาพแวดล้อมต่างๆ ได้

การใช้งานในอนาคต

เมื่อ VentureBeat ถามทางอีเมลว่าโมเดลการพูดเช่น SpeechStew อาจใช้ในการผลิตอย่างไร เช่น ในอุปกรณ์สำหรับผู้บริโภคหรือ API บนคลาวด์ นักวิจัยปฏิเสธที่จะคาดเดา แต่พวกเขามองเห็นแบบจำลองที่ทำหน้าที่เป็นตัวแทนวัตถุประสงค์ทั่วไปที่สามารถถ่ายโอนไปยังงานการรู้จำเสียงแบบดาวน์สตรีมจำนวนเท่าใดก็ได้

“เทคนิคง่ายๆ ในการปรับโมเดลวัตถุประสงค์ทั่วไปอย่างละเอียดเพื่องานการรู้จำเสียงแบบดาวน์สตรีมแบบใหม่นั้นเรียบง่าย ใช้งานได้จริง แต่ได้ผลอย่างน่าตกใจ” นักวิจัยกล่าว “สิ่งสำคัญคือต้องตระหนักว่าการกระจายของแหล่งข้อมูลอื่นไม่ตรงกับชุดข้อมูลที่สนใจอย่างสมบูรณ์ แต่ตราบใดที่มีการแสดงร่วมกันที่จำเป็นในการแก้ปัญหาทั้งสองงาน เราก็หวังว่าจะได้ผลลัพธ์ที่ดีขึ้นโดยการรวมชุดข้อมูลทั้งสองเข้าด้วยกัน”

VentureBeat

ภารกิจของ VentureBeat คือการเป็นจัตุรัสกลางเมืองดิจิทัลสำหรับผู้มีอำนาจตัดสินใจด้านเทคนิคเพื่อรับความรู้เกี่ยวกับเทคโนโลยีการเปลี่ยนแปลงและการทำธุรกรรม เว็บไซต์ของเราให้ข้อมูลที่จำเป็นเกี่ยวกับเทคโนโลยีข้อมูลและกลยุทธ์เพื่อแนะนำคุณในขณะที่คุณเป็นผู้นำองค์กรของคุณ เราขอเชิญคุณเข้าร่วมเป็นสมาชิกของชุมชนของเราเพื่อเข้าถึง:

ข้อมูลล่าสุดเกี่ยวกับเรื่องที่คุณสนใจ
จดหมายข่าวของเรา
เนื้อหาที่เป็นผู้นำทางความคิดที่มีรั้วรอบขอบชิดและการเข้าถึงส่วนลดสำหรับกิจกรรมอันมีค่าของเราเช่น แปลงร่าง 2021: เรียนรู้เพิ่มเติม
คุณสมบัติระบบเครือข่ายและอื่น ๆ

เป็นสมาชิก

ที่มา: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

ประทับเวลา: April 15, 2021

ประทับเวลา: May 6, 2021

Xfinity และ Mission Control เปิดตัว City Series สำหรับเกมเมอร์ในภาคตะวันออกเฉียงเหนือของสหรัฐฯ

คลัสเตอร์ต้นทาง:

VentureBeat

โหนดต้นทาง: 1386487

ประทับเวลา: ม.ค. 4, 2022

Apple จะมุ่งเน้นไปที่การเรียนรู้ของเครื่องงาน AI ในวิทยาเขต NC แห่งใหม่

คลัสเตอร์ต้นทาง:

VentureBeat

โหนดต้นทาง: 832898

ประทับเวลา: เมษายน 26, 2021

HoneyBook ช่วยเพิ่มการชำระเงินของผู้รับเหมาการจองและการออกใบแจ้งหนี้ด้วยเงิน 155 ล้านดอลลาร์

คลัสเตอร์ต้นทาง:

VentureBeat

โหนดต้นทาง: 838369

ประทับเวลา: May 4, 2021

นักวิจัยของ Google เพิ่มความแม่นยำในการรู้จำเสียงด้วยชุดข้อมูลมากขึ้น

เผยแพร่ซ้ำโดยเพลโต

โซลูชันชุดข้อมูล

การใช้งานในอนาคต

VentureBeat

เพิ่มเติมจาก VentureBeat

Nvidia คาดยอดขายไตรมาส 1 ทะลุ 5.3 พันล้านดอลลาร์

Nvidia เปิดตัวเฟรมเวิร์ก AI การสนทนาของจาร์วิสในความพร้อมใช้งานทั่วไป

คุณต้องสำรวจข้อมูลในไปป์ไลน์ AI ของคุณอย่างต่อเนื่อง

Google เปิดตัวฟีเจอร์ใหม่ที่ขับเคลื่อนด้วย AI สำหรับ Meet

AI การสังเคราะห์เกิดขึ้นจากการลักลอบด้วยเงิน 4.5 ล้านเหรียญเพื่อสร้างชุดข้อมูลใบหน้าสังเคราะห์

บริษัทการประชุมทางวิดีโอ Touchcast ใช้ AI เพื่อเพิ่มบริบทในการสนทนา

Xfinity และ Mission Control เปิดตัว City Series สำหรับเกมเมอร์ในภาคตะวันออกเฉียงเหนือของสหรัฐฯ

Apple จะมุ่งเน้นไปที่การเรียนรู้ของเครื่องงาน AI ในวิทยาเขต NC แห่งใหม่

HoneyBook ช่วยเพิ่มการชำระเงินของผู้รับเหมาการจองและการออกใบแจ้งหนี้ด้วยเงิน 155 ล้านดอลลาร์

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้