Google Researchers Boost Speech Recognition Accuracy With More Datasets

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

2021-12 Temmuz'da Transform 16'e katılın. Kayıt ol r yılın AI etkinliği.

Peki ya konuşma tanıma doğruluğunu iyileştirmenin anahtarı, büyük bir yapay zeka modelini eğitmek için mevcut tüm konuşma veri kümelerini bir araya getirmekse? Google Araştırma ve Google Brain'e bağlı bir araştırmacı ekibi tarafından yakın zamanda yayınlanan bir çalışmanın arkasındaki hipotez budur. Adlı bir yapay zeka modeli olduğunu iddia ediyorlar Konuşma Yahnisi çeşitli konuşma korporaları üzerinde eğitilmiş, çeşitli konuşma tanıma kriterlerinde en son teknolojiye sahip veya en son teknolojiye yakın sonuçlar elde eder.

Özellikle konuşma alanında, yeni verilerin toplanması ve bunlara açıklama eklenmesi pahalı olduğundan, daha fazla veriye dayalı eğitim modelleri zor olma eğilimindedir. Üstelik büyük modellerin eğitimi pahalıdır ve yapay zeka topluluğunun birçok üyesi için pratik değildir.

Veri kümesi çözümü

Bir çözüm arayışında olan Google araştırmacıları, topluluk tarafından yıllar içinde seçilen mevcut tüm etiketli ve etiketsiz konuşma tanıma verilerini birleştirdi. Yaklaşık 100 saatlik toplantı kayıtlarını içeren bir veri kümesi olan AMI'nin yanı sıra Switchboard (yaklaşık 2,000 saatlik telefon görüşmesi), Broadcast News (50 saatlik televizyon haberleri), Librispeech (960 saatlik sesli kitaplar) ve Mozilla kitle kaynaklı Ortak ses. Birleştirilmiş veri setlerinde 5,000 saatin üzerinde konuşma vardı ve bunların hiçbiri orijinal biçiminden farklı değildi.

Araştırmacılar, bir araya getirilen veri kümesiyle SpeechStew'ü eğitmek için Google Cloud TPU'ları kullandı ve 100 milyondan fazla parametreye sahip bir model ortaya çıktı. Makine öğreniminde parametreler, modelin eğitim süreci sırasında öğrendiği verilerin özellikleridir. Araştırmacılar ayrıca 1 milyar parametreli bir model de eğittiler ancak performansta düşüş yaşandı.

Ekip genel amaçlı bir SpeechStew modeline sahip olduktan sonra bunu bir cihaz üzerinde test etti. kıyaslama sayısı ve bunun yalnızca daha önce geliştirilen modellerden daha iyi performans göstermekle kalmayıp, aynı zamanda zorlu yeni görevlere uyum sağlama yeteneği gösterdiğini de buldu. Evlerdeki uzak konuşmaların mikrofonlarla kaydedildiği 6 saatlik bir veri seti olan Chime-40'dan yararlanan araştırmacılar, çok daha karmaşık bir modele uygun doğruluk elde etmek için SpeechStew'da ince ayar yaptılar.

Transfer öğrenimi, bilginin bir alandan farklı bir alana daha az veriyle aktarılmasını gerektirir ve yapay zekanın birçok alt alanında ümit vaat etmektedir. Genel konuşmayı anlamak için tasarlanmış SpeechStew gibi bir modeli alıp onu kenarlarında hassaslaştırarak, yapay zekanın örneğin farklı aksan ve ortamlardaki konuşmaları anlaması mümkündür.

Gelecek uygulamalar

VentureBeat e-posta yoluyla SpeechStew gibi konuşma modellerinin tüketici cihazlarında veya bulut API'lerinde olduğu gibi üretimde nasıl kullanılabileceğini sorduğunda araştırmacılar spekülasyon yapmayı reddetti. Ancak modellerin, herhangi bir sayıda alt konuşma tanıma görevine aktarılabilen genel amaçlı temsiller olarak hizmet ettiğini öngörüyorlar.

Araştırmacılar, "Genel amaçlı bir modelin yeni alt konuşma tanıma görevlerine ince ayar yapılmasına yönelik bu basit teknik, basit, pratik, ancak şaşırtıcı derecede etkilidir" dedi. "Diğer veri kaynaklarının dağılımının, ilgilenilen veri kümesiyle tam olarak eşleşmediğinin farkına varmak önemlidir. Ancak her iki görevi de çözmek için ortak bir temsile ihtiyaç duyulduğu sürece, her iki veri kümesini birleştirerek daha iyi sonuçlar elde etmeyi umut edebiliriz."

VentureBeat

VentureBeat'in misyonu, teknik karar vericilerin dönüştürücü teknoloji ve işlem hakkında bilgi edinmesi için dijital bir şehir meydanı olmaktır. Sitemiz, kuruluşlarınıza liderlik ederken size rehberlik edecek veri teknolojileri ve stratejiler hakkında önemli bilgiler sunar. Sizi topluluğumuzun bir üyesi olmaya, erişmeniz için davet ediyoruz:

ilgilendiğiniz konular hakkında güncel bilgiler
bültenlerimiz
kapılı düşünce lideri içeriği ve ödüllü etkinliklerimize indirimli erişim, örneğin 2021 Transform: Daha fazla bilgi edin
ağ özellikleri ve daha fazlası

Üye ol

Kaynak: https://venturebeat.com/2021/04/15/google-researchers-boost-speech-recognition-accuracy-with-more-datasets/

Zaman Damgası: 15 Nisan 2021

Zaman Damgası: Nisan 23, 2021

Google araştırmacıları daha fazla veri kümesiyle konuşma tanıma doğruluğunu artırıyor

Plato tarafından yeniden yayınlandı

Veri kümesi çözümü

Gelecek uygulamalar

VentureBeat

Den fazla VentureBeat

Haftalık AI: Qualcomm'un AI araştırma ve geliştirme çabaları

Uygulamalı makine öğreniminin zorlukları

Imperva, API güvenlik şirketi CloudVector'ı satın aldı

AI hakkında en yaygın dört yanılgı

Opswat, kötü amaçlı yazılımdan koruma araçlarıyla altyapı korumasını genişletir ve 125 milyon ABD doları artış sağlar

IBM, iş süreci otomasyonu başlangıcı MyInvenio'yu satın aldı

Snorkel AI'nin uygulama geliştirme platformu 35 milyon dolar kazandı

ABD Senato komitesi AI, kuantum ve biyoteknolojiyi finanse etmek için bir yasa tasarısını revize etti

Oracle, erişimi basitleştirmek için bulut analitik hizmetini yeniliyor

Analytics girişimi Unsupervised, kurumsal verilerdeki kalıpları tespit etmek için 35 milyon dolar artırdı

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap