Google 연구원은 더 많은 데이터 세트를 사용하여 음성 인식 정확도를 높입니다.

소스 노드 : 809069

이번 2021 월 12 일부터 16 일까지 Transform XNUMX에 참여하세요. FO 등록r 올해의 AI 이벤트.


음성 인식 정확도를 향상시키는 열쇠가 단순히 사용 가능한 모든 음성 데이터 세트를 함께 혼합하여 하나의 대규모 AI 모델을 훈련시키는 것이라면 어떻게 될까요? 이는 Google Research 및 Google Brain 소속 연구진이 발표한 최근 연구의 이면에 있는 가설입니다. 그들은 다음과 같은 AI 모델을 주장합니다. 연설스튜 다양한 음성 말뭉치에 대해 훈련된 음성 인식 벤치마크는 다양한 음성 인식 벤치마크에서 최고 수준 또는 최고 수준에 가까운 결과를 얻습니다.

더 많은 데이터에 대한 모델 훈련은 어려운 경향이 있습니다. 새로운 데이터를 수집하고 주석을 추가하는 데 비용이 많이 들기 때문입니다. 특히 음성 영역에서는 더욱 그렇습니다. 게다가 대규모 모델을 훈련하는 것은 AI 커뮤니티의 많은 구성원에게 비용이 많이 들고 비실용적입니다.

데이터세트 솔루션

해결책을 찾기 위해 Google 연구원들은 수년에 걸쳐 커뮤니티에서 선별한 사용 가능한 모든 레이블이 지정된 음성 인식 데이터와 레이블이 지정되지 않은 음성 인식 데이터를 결합했습니다. 그들은 약 100시간의 회의 녹음이 포함된 데이터 세트인 AMI와 Switchboard(약 2,000시간의 전화 통화), Broadcast News(50시간의 텔레비전 뉴스), Librispeech(960시간의 오디오북) 및 Mozilla의 크라우드소싱 일반적인 목소리. 그들의 결합된 데이터세트는 5,000시간이 넘는 음성을 담고 있었는데, 그 중 어느 것도 원래 형식에서 조정되지 않았습니다.

연구진은 수집된 데이터 세트를 통해 Google Cloud TPU를 사용하여 SpeechStew를 학습시켜 100억 개가 넘는 매개변수가 포함된 모델을 생성했습니다. 기계 학습에서 매개변수는 훈련 과정에서 모델이 학습한 데이터의 속성입니다. 연구원들은 또한 1억 개의 매개변수 모델을 훈련했지만 성능 저하로 어려움을 겪었습니다.

팀은 범용 SpeechStew 모델을 확보한 후 이를 테스트했습니다. 벤치마크 수 그리고 이전에 개발된 모델보다 성능이 뛰어났을 뿐만 아니라 도전적인 새로운 작업에 적응하는 능력도 입증했다는 사실을 발견했습니다. 연구진은 집에서 마이크로 녹음한 6시간 거리의 대화 데이터세트인 Chime-40을 활용하여 SpeechStew를 미세 조정하여 훨씬 더 정교한 모델에 맞춰 정확도를 달성했습니다.

전이 학습은 더 적은 데이터를 사용하여 한 도메인에서 다른 도메인으로 지식을 이전하는 것을 수반하며 AI의 많은 하위 분야에서 가능성을 보여주었습니다. 일반적인 음성을 이해하고 이를 여백에서 개선하도록 설계된 SpeechStew와 같은 모델을 사용하면 AI가 다양한 억양과 환경에서 음성을 이해하는 등의 작업이 가능합니다.

향후 애플리케이션

VentureBeat가 이메일을 통해 SpeechStew와 같은 음성 모델이 소비자 장치나 클라우드 API와 같은 프로덕션에서 어떻게 사용될 수 있는지 물었을 때 연구원들은 추측을 거부했습니다. 그러나 그들은 다양한 다운스트림 음성 인식 작업으로 전송할 수 있는 범용 표현 역할을 하는 모델을 구상하고 있습니다.

연구원들은 “범용 모델을 새로운 다운스트림 음성 인식 작업에 맞게 미세 조정하는 이 간단한 기술은 간단하고 실용적이지만 놀라울 정도로 효과적입니다.”라고 말했습니다. “다른 데이터 소스의 분포가 관심 데이터 세트와 완벽하게 일치하지 않는다는 점을 인식하는 것이 중요합니다. 그러나 두 작업을 모두 해결하는 데 필요한 공통 표현이 있는 한 두 데이터 세트를 결합하여 향상된 결과를 얻을 수 있습니다."

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

  • 관심있는 주제에 대한 최신 정보
  • 뉴스 레터
  • 금지 된 사고 리더 콘텐츠 및 다음과 같은 소중한 이벤트에 대한 할인 된 액세스 변환 2021: 더 알아보기
  • 네트워킹 기능 등

회원 가입

출처: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

타임 스탬프 :

더보기 VentureBeat