Google araştırmacıları daha fazla veri kümesiyle konuşma tanıma doğruluğunu artırıyor

Kaynak Düğüm: 809069

2021-12 Temmuz'da Transform 16'e katılın. Kayıt olr yılın AI etkinliği.


Peki ya konuşma tanıma doğruluğunu iyileştirmenin anahtarı, büyük bir yapay zeka modelini eğitmek için mevcut tüm konuşma veri kümelerini bir araya getirmekse? Google Araştırma ve Google Brain'e bağlı bir araştırmacı ekibi tarafından yakın zamanda yayınlanan bir çalışmanın arkasındaki hipotez budur. Adlı bir yapay zeka modeli olduğunu iddia ediyorlar Konuşma Yahnisi çeşitli konuşma korporaları üzerinde eğitilmiş, çeşitli konuşma tanıma kriterlerinde en son teknolojiye sahip veya en son teknolojiye yakın sonuçlar elde eder.

Özellikle konuşma alanında, yeni verilerin toplanması ve bunlara açıklama eklenmesi pahalı olduğundan, daha fazla veriye dayalı eğitim modelleri zor olma eğilimindedir. Üstelik büyük modellerin eğitimi pahalıdır ve yapay zeka topluluğunun birçok üyesi için pratik değildir.

Veri kümesi çözümü

Bir çözüm arayışında olan Google araştırmacıları, topluluk tarafından yıllar içinde seçilen mevcut tüm etiketli ve etiketsiz konuşma tanıma verilerini birleştirdi. Yaklaşık 100 saatlik toplantı kayıtlarını içeren bir veri kümesi olan AMI'nin yanı sıra Switchboard (yaklaşık 2,000 saatlik telefon görüşmesi), Broadcast News (50 saatlik televizyon haberleri), Librispeech (960 saatlik sesli kitaplar) ve Mozilla kitle kaynaklı Ortak ses. Birleştirilmiş veri setlerinde 5,000 saatin üzerinde konuşma vardı ve bunların hiçbiri orijinal biçiminden farklı değildi.

Araştırmacılar, bir araya getirilen veri kümesiyle SpeechStew'ü eğitmek için Google Cloud TPU'ları kullandı ve 100 milyondan fazla parametreye sahip bir model ortaya çıktı. Makine öğreniminde parametreler, modelin eğitim süreci sırasında öğrendiği verilerin özellikleridir. Araştırmacılar ayrıca 1 milyar parametreli bir model de eğittiler ancak performansta düşüş yaşandı.

Ekip genel amaçlı bir SpeechStew modeline sahip olduktan sonra bunu bir cihaz üzerinde test etti. kıyaslama sayısı ve bunun yalnızca daha önce geliştirilen modellerden daha iyi performans göstermekle kalmayıp, aynı zamanda zorlu yeni görevlere uyum sağlama yeteneği gösterdiğini de buldu. Evlerdeki uzak konuşmaların mikrofonlarla kaydedildiği 6 saatlik bir veri seti olan Chime-40'dan yararlanan araştırmacılar, çok daha karmaşık bir modele uygun doğruluk elde etmek için SpeechStew'da ince ayar yaptılar.

Transfer öğrenimi, bilginin bir alandan farklı bir alana daha az veriyle aktarılmasını gerektirir ve yapay zekanın birçok alt alanında ümit vaat etmektedir. Genel konuşmayı anlamak için tasarlanmış SpeechStew gibi bir modeli alıp onu kenarlarında hassaslaştırarak, yapay zekanın örneğin farklı aksan ve ortamlardaki konuşmaları anlaması mümkündür.

Gelecek uygulamalar

VentureBeat e-posta yoluyla SpeechStew gibi konuşma modellerinin tüketici cihazlarında veya bulut API'lerinde olduğu gibi üretimde nasıl kullanılabileceğini sorduğunda araştırmacılar spekülasyon yapmayı reddetti. Ancak modellerin, herhangi bir sayıda alt konuşma tanıma görevine aktarılabilen genel amaçlı temsiller olarak hizmet ettiğini öngörüyorlar.

Araştırmacılar, "Genel amaçlı bir modelin yeni alt konuşma tanıma görevlerine ince ayar yapılmasına yönelik bu basit teknik, basit, pratik, ancak şaşırtıcı derecede etkilidir" dedi. "Diğer veri kaynaklarının dağılımının, ilgilenilen veri kümesiyle tam olarak eşleşmediğinin farkına varmak önemlidir. Ancak her iki görevi de çözmek için ortak bir temsile ihtiyaç duyulduğu sürece, her iki veri kümesini birleştirerek daha iyi sonuçlar elde etmeyi umut edebiliriz."

VentureBeat

VentureBeat'in misyonu, teknik karar vericilerin dönüştürücü teknoloji ve işlem hakkında bilgi edinmesi için dijital bir şehir meydanı olmaktır. Sitemiz, kuruluşlarınıza liderlik ederken size rehberlik edecek veri teknolojileri ve stratejiler hakkında önemli bilgiler sunar. Sizi topluluğumuzun bir üyesi olmaya, erişmeniz için davet ediyoruz:

  • ilgilendiğiniz konular hakkında güncel bilgiler
  • bültenlerimiz
  • kapılı düşünce lideri içeriği ve ödüllü etkinliklerimize indirimli erişim, örneğin 2021 Transform: Daha fazla bilgi edin
  • ağ özellikleri ve daha fazlası

Üye ol

Kaynak: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Zaman Damgası:

Den fazla VentureBeat