تشخیص خودکار گفتار (ASR) - ساخت محل کار آماده آینده

بازنشر افلاطون

دنبال: 0

ما می توانیم پیشرفت در پذیرش فناوری را از رایانه های پانچ کارت تا جدیدترین دستگاه های صفحه لمسی ردیابی کنیم. با این حال، چیزهای زیادی برای کشف باقی مانده است. اما این چی هست؟

پاسخ، تشخیص خودکار گفتار (ASR) است. این یک گام بزرگ برای تبدیل کلام گفتاری به شکل نوشتاری است. تشخیص خودکار گفتار (ASR) روندی است که قرار است در سال 2022 سر و صدا ایجاد کند. و افزایش رشد دستیارهای صوتی به دلیل گوشی های هوشمند دستیار صوتی داخلی و دستگاه های صوتی هوشمند مانند الکسا است.

طبق گزارش PwC، 29 درصد از مشتریان از دستیارهای صوتی برای پرسیدن سؤالات سریع استفاده می کنند.

با توجه به مزایایی که تشخیص خودکار گفتار (ASR) (ASR) به ارمغان می‌آورد، در اینجا و اکنون فرصتی برای افراد باهوش تجارت و رهبران نوآوری دیجیتال وجود دارد تا از ASR به‌خوبی استفاده کنند.

قبل از اینکه به موارد استفاده بپردازیم، ابتدا اصول اولیه را درک کنیم.

تشخیص خودکار گفتار (ASR) چیست؟

طبق گفته مایکروسافت ، حدود 35 درصد از پاسخ دهندگان از یک بلندگوی خانه هوشمند برای تعامل با دستیارهای تشخیص گفتار استفاده می کنند.

به عبارت ساده، تشخیص خودکار گفتار در درجه اول بر ترجمه گفتار شفاهی به متن تمرکز دارد و به دنبال شناسایی صدای تک تک کاربران است. به عنوان مثال، اگر انسان طلسم کند، "Hey Google، هوا امروز چگونه است؟" تلفن هوشمند شما گفتار را به متن تبدیل می کند و پس از کشیدن داده ها از اینترنت پاسخ می دهد.

و نسخه پیشرفته‌تر ASR با استفاده از هوش مصنوعی و یادگیری ماشینی با مشتریان به روشی واقعاً شبیه انسان ارتباط برقرار می‌کند.

این سیستم‌های پیشرفته ASR همچنین می‌توانند دستور زبان، ساختار نحو، و ترکیب سیگنال‌های صوتی و صوتی را برای تفسیر و پردازش گفتار شفاهی به متن ادغام کنند.

علاوه بر این، آنها با هر تعاملی که گذرا می‌گذرد، تکامل می‌یابند و سازمان‌ها را قادر می‌سازند تا فناوری خود را مطابق با الزامات تجاری تطبیق داده و سفارشی کنند.

تشخیص خودکار گفتار (ASR) چگونه کار می‌کند؟

سیستم اصلی تشخیص گفتار خودکار (ASR) ورودی صوتی را از فردی که صحبت می کند دریافت می کند. سپس، اطلاعات را با تجزیه اجزای مختلف گفتار پردازش می‌کند و گفتار را به متن رونویسی می‌کند.

به جای قوانین کدگذاری برای ترجمه گفتار به متن، شرکت ها می توانند شبکه عصبی خود را با تغذیه بسازند. مجموعه داده های صوتی به الگوریتم هایی که به راحتی معماری مغز انسان را تقلید می کنند. تشخیص خودکار گفتار (ASR) شامل سه مرحله فرآیند است:

این مرحله شامل رمزگشایی هر دو زبان گفتاری و عناصر اساسی واژگان نوشتاری است. دقت مجموعه داده های تشخیص گفتار را که دارای واژگان گسترده هستند تضمین می کند.

پس از رمزگشایی گفتار، مدل آکوستیک سیگنال‌های صوتی را به فریم‌های کوچک‌تر جدا می‌کند و هدف آن پیش‌بینی صداهایی است که در هر فریم با استفاده از واج‌های مختلف گفته می‌شود. مدل آکوستیک از مجموعه داده‌های یادگیری ماشین برای آموزش ضبط‌های صوتی مختلف و رونوشت‌های مربوطه برای تعیین واج‌های مورد استفاده در یک قاب صوتی خاص استفاده کرد.

آخرین مرحله در فرآیند ASR شامل استفاده است جمع آوری داده ها و پردازش زبان طبیعی برای درک بافت انسانی و پیش‌بینی‌های دقیق در مورد کلمات و جملات از ورودی صوتی.

نمونه‌هایی از تشخیص خودکار گفتار (ASR).

با هجوم تماس‌گیرندگان، سازمان‌ها باید از پشتیبانی برای حل و فصل سوالات واقعی برخوردار باشند. با استفاده از تشخیص خودکار گفتار (ASR)، مراکز تماس، تماس‌های مشتریان را مستند می‌کنند و وضوح سریع آن‌ها را ارائه می‌کنند. ربات‌های IVR مداخله دستی را با حل پرس‌و‌جوهای معمولی و فعال کردن عوامل برای انجام وظایف پیچیده محدود می‌کنند. اگر ربات نتواند سؤالات را حل کند، می‌توان تماس را به نمایندگان انسانی با صفحه تلفن مشتری رونویسی‌شده هدایت کرد.

همانطور که در گزارش Juniper، استفاده از دستیارهای صوتی دیجیتال تا سال 8 به 2023 میلیون نفر خواهد رسید که توسط دستگاه های خانه هوشمند هدایت می شود. با استفاده از قابلیت‌های هوش مصنوعی مکالمه‌ای، دستیارهای صوتی به پردازش کارهایی مانند باز کردن برنامه تلفن همراه، پیمایش نقشه‌ها، ارسال پیام‌های متنی، و جستجوی یکپارچه در مرورگر بدون نقص کمک می‌کنند.

استفاده از یادگیری زبان از طریق تشخیص خودکار گفتار (ASR) مانع زبان را از بین می برد و سفر و ارتباطات بین مرزی را در دسترس قرار می دهد. مجموعه داده‌های تشخیص خودکار گفتار (ASR) همچنین به دانش‌آموزان کمک می‌کند تا در مطالعه زبان خود هدایت شونده شرکت کنند. سیستم ASR به ورودی صوتی گوش می دهد و آن را تجزیه و تحلیل می کند تا مطابقت/عدم تطابق را انجام دهد. پس از شناسایی، تلفظ را تصحیح می کند و به دانش آموزان اطلاع می دهد.

رونویسی یکی از موارد استفاده گسترده از تشخیص خودکار گفتار (ASR) است. از رونویسی سخنرانی ها تا تماس های زوم و وبینارها، سیستم ASR سطحی از راحتی و دسترسی به دسترسی صوتی و تصویری را فراهم می کند. علاوه بر این، سیستم ASR رونویسی پادکست‌های زنده و وبینارها را نیز ارائه می‌دهد که به مخاطبان گسترده‌تر اجازه می‌دهد تا به رسانه‌ها دسترسی موثر داشته باشند.

با تشخیص خودکار گفتار (ASR) به نیرو بپیوندید

علی‌رغم پیشرفت‌هایی که تشخیص خودکار گفتار (ASR) به ارمغان می‌آورد، راه طولانی تا تحول دیجیتال وجود دارد. در عصر دیجیتال، سازمان‌ها به شدت احساس می‌کنند که تجربه مشتری بهترین تجربه را برای تولید ROI بالاتر دارد. و تشخیص خودکار گفتار (ASR) راه حلی سریع برای ایجاد یک تجربه شخصی و امکان تعامل در زمان واقعی است. به سادگی با قرار دادن رایانه‌ها برای گوش دادن، تشخیص خودکار گفتار (ASR) مداخله دستی را محدود می‌کند و مشارکت کارکنان و مشتری را افزایش می‌دهد. اکنون زمان آن است که قفل قدرت تشخیص خودکار گفتار (ASR) را باز کنید، پس منتظر چه چیزی هستید.

در اصل در https://www.imcgrupo.com در 14 آوریل 2022.

تشخیص خودکار گفتار (ASR) - ساخت محل کار آماده آینده در ابتدا منتشر شد زندگی چت بات ها در Medium، جایی که مردم با برجسته کردن و پاسخ دادن به این داستان به گفتگو ادامه می دهند.

تمبر زمان: ممکن است 10، 2022