Improve The Streaming Transcription Experience With Amazon Transcribe Partial Results Stabilization

بازنشر افلاطون

دنبال: 0

چه در حال تماشای پخش زنده از تیم فوتبال مورد علاقه خود باشید، چه در حال چت تصویری با فروشنده هستید یا با بانک خود در مورد پرداخت وام تماس می گیرید، پخش محتوای سخنرانی همه جا وجود دارد. می‌توانید از یک سرویس رونویسی پخش جریانی برای تولید زیرنویس‌ها برای درک محتوا و دسترسی، ایجاد فراداده برای فعال کردن جستجو، یا استخراج اطلاعات بینش برای تجزیه و تحلیل تماس استفاده کنید. این سرویس‌های رونویسی محتوای صوتی جریانی را پردازش می‌کنند و نتایج رونویسی جزئی تولید می‌کنند تا زمانی که رونویسی نهایی را برای بخشی از گفتار پیوسته ارائه کنند. با این حال، برخی از کلمات یا عبارات در این نتایج جزئی ممکن است تغییر کنند، زیرا سرویس بیشتر زمینه صدا را درک می کند.

ما خوشحالیم که اعلام کنیم که Amazon Transcript اکنون به شما امکان می دهد تثبیت نتایج جزئی را برای پخش رونوشت های صوتی فعال و پیکربندی کنید. رونویسی آمازون یک خدمات تشخیص خودکار گفتار (ASR). که توسعه دهندگان را قادر می سازد تا قابلیت های گفتار به متن در زمان واقعی را برای محتوای درخواستی و جریانی به برنامه های خود اضافه کنند. به جای اینکه منتظر بمانید تا یک جمله کامل رونویسی شود، اکنون می توانید سطح تثبیت نتایج جزئی را کنترل کنید. رونویسی 3 تنظیم را ارائه می دهد: زیاد، متوسط و کم. تنظیم تثبیت "بالا" اجازه می دهد تا بخش بیشتری از نتایج جزئی با تغییر تنها چند کلمه آخر در طول فرآیند رونویسی ثابت شود. این ویژگی به شما کمک می‌کند تا بر اساس تجربه کاربری که می‌خواهید ایجاد کنید، در گردش‌های کاری رونویسی جریانی انعطاف‌پذیری بیشتری داشته باشید.

در این پست، مزایای این ویژگی و نحوه فعال کردن آن از طریق کنسول Amazon Transcript یا API را مرور می کنیم.

تثبیت نتایج جزئی چگونه کار می کند

بیایید با یک مثال عمیق تر به این موضوع بپردازیم.

در طول مکالمات روزانه خود، ممکن است فکر کنید کلمه یا عبارت خاصی را می شنوید، اما بعداً متوجه می شوید که بر اساس زمینه اضافی نادرست بوده است. فرض کنید با کسی در مورد غذا صحبت می‌کردید، و شنیدید که می‌گفت: «امشب، من یک گلابی می‌خورم...» اما وقتی سخنران تمام می‌شود، متوجه می‌شوید که او در واقع گفته است: «امشب من یک جفت پنکیک می‌خورم». همانطور که انسان ها ممکن است درک ما را بر اساس اطلاعات موجود تغییر دهند، Amazon Transcript نیز از یادگیری ماشینی (ML) برای تصحیح خودکار رونویسی جریان صوتی بر اساس زمینه ای که دریافت می کند استفاده می کند. برای فعال کردن این، Amazon Transcript از نتایج جزئی استفاده می کند.

در طول فرآیند رونویسی استریم، رونویسی آمازون تکه‌هایی از نتایج را با یک خروجی خروجی می‌دهد isPartial پرچم. نتایج با این پرچم به عنوان علامت گذاری شده است true مواردی هستند که آمازون رونویسی ممکن است در آینده بسته به زمینه اضافی دریافت شده تغییر کند. پس از اینکه آمازون رونویسی طبقه بندی کرد که زمینه کافی برای بیش از یک آستانه اطمینان خاص دارد، نتایج تثبیت می شوند و isPartial پرچم برای آن نتیجه جزئی خاص مشخص شده است false. اندازه پنجره این نتایج جزئی می تواند از چند کلمه تا چند جمله بسته به زمینه جریان متغیر باشد.

تصویر زیر نحوه تولید (و ویرایش) نتایج جزئی را در Amazon Transcript برای رونویسی جریان نشان می دهد.

تثبیت نتایج کنترل بیشتر بر تأخیر و دقت نتایج رونویسی را امکان پذیر می کند. بسته به مورد استفاده، ممکن است یکی را بر دیگری اولویت دهید. به عنوان مثال، هنگام ارائه زیرنویس زنده، تثبیت بالای نتایج ممکن است ترجیح داده شود زیرا سرعت مهمتر از دقت است. از طرف دیگر برای موارد استفاده مانند تعدیل محتوا، تثبیت کمتر ترجیح داده می شود زیرا دقت ممکن است مهمتر از تأخیر باشد.

سطح پایداری بالا با محدود کردن پنجره زمینه برای تثبیت نتایج، تثبیت سریع‌تر نتایج رونویسی را امکان‌پذیر می‌کند، اما می‌تواند منجر به کاهش دقت کلی شود. از سوی دیگر، سطح پایداری پایین منجر به نتایج رونویسی دقیق‌تر می‌شود، اما نتایج رونویسی جزئی احتمال تغییر بیشتری دارد.

با استفاده از API رونویسی جریانی، اکنون می‌توانید پایداری نتایج جزئی را در جریان رونویسی خود کنترل کنید.

حالا بیایید نحوه استفاده از این ویژگی را بررسی کنیم.

از طریق کنسول Amazon Transcript به تثبیت نتایج جزئی دسترسی داشته باشید

برای شروع استفاده از تثبیت نتایج جزئی در کنسول آمازون رونویسی، مراحل زیر را انجام دهید:

در کنسول آمازون رونویسی، مطمئن شوید که در یک منطقه ای که از پخش جریانی آمازون پشتیبانی می کند.

برای این پست از us-east-1.

در صفحه پیمایش، را انتخاب کنید رونویسی در زمان واقعی.
تحت تنظیمات اضافی، فعال کنید تثبیت جزئی نتایج.

سطح ثبات خود را انتخاب کنید.

شما می توانید بین سه سطح انتخاب کنید:

زیاد - پایدارترین نتایج رونویسی جزئی را با دقت کمتر در مقایسه با تنظیمات متوسط و پایین ارائه می دهد. با جمع‌آوری زمینه‌های اضافی، احتمال تغییر نتایج کمتر است.
متوسط - نتایج رونویسی جزئی را ارائه می دهد که تعادلی بین ثبات و دقت دارد
کم - نتایج رونویسی جزئی با ثبات نسبتاً کمتری را با دقت بالاتر در مقایسه با تنظیمات High و Medium ارائه می دهد. نتایج با جمع آوری و استفاده از زمینه اضافی به روز می شوند.

را انتخاب کنید پخش جریانی را شروع کنید برای پخش یک جریان و بررسی نتایج.

از طریق API به تثبیت نتایج جزئی دسترسی پیدا کنید

در این بخش، جریان با HTTP/2 را نشان می دهیم. می‌توانید سطح مطلوب تثبیت نتایج جزئی را در یک درخواست API فعال کنید.

شما این ویژگی را از طریق فعال می کنید enable-partial-results-stabilization پرچم و partial-results-stability پارامترهای ورودی سطح:

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-enable-partial-results-stabilization= true x-amzn-transcribe-partial-results-stability = low | medium | high

فعال کردن تثبیت نتایج جزئی، پرچم پارامتر اضافی را معرفی می کند Stable در پاسخ API در سطح آیتم در نتایج رونویسی. اگر یک مورد نتایج جزئی در نتیجه رونویسی جریانی دارای این باشد Stable پرچم به عنوان علامت گذاری شده است true، رونویسی مورد مربوطه در نتایج جزئی صرف نظر از هر زمینه بعدی که توسط Amazon Transcript شناسایی شده است تغییر نمی کند. اگر Stable پرچم به عنوان علامت گذاری شده است false، هنوز این احتمال وجود دارد که مورد مربوطه در آینده تغییر کند، تا زمانی که IsPartial پرچم به عنوان علامت گذاری شده است false.

کد زیر پاسخ API ما را نشان می دهد:

{ "Alternatives": [ { "Items": [ { "Confidence": 0, "Content": "Amazon", "EndTime": 1.22, "Stable": true, "StartTime": 0.78, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "is", "EndTime": 1.63, "Stable": true, "StartTime": 1.46, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "the", "EndTime": 1.76, "Stable": true, "StartTime": 1.64, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "largest", "EndTime": 2.31, "Stable": true, "StartTime": 1.77, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "rainforest", "EndTime": 3.34, "Stable": true, "StartTime": 2.4, "Type": "pronunciation", "VocabularyFilterMatch": false }, ], "Transcript": "Amazon is the largest rainforest " } ], "EndTime": 4.33, "IsPartial": false, "ResultId": "f4b5d4dd-b685-4736-b883-795dc3f7f636", "StartTime": 0.78 }

نتیجه

این پست ویژگی تثبیت نتایج جزئی را که اخیراً در Amazon Transcript راه اندازی شده معرفی می کند. برای اطلاعات بیشتر، به آمازون رونویسی اسناد تثبیت نتایج جزئی.

برای کسب اطلاعات بیشتر در مورد Amazon Transcribe Streaming Transcription API، بررسی کنید استفاده از آمازون رونویسی جریانی با HTTP/2 و با استفاده از پخش جریانی رونویسی آمازون با WebSockets.

درباره نویسنده

الکس چیرایت یک SDE در آزمایشگاه راه حل های یادگیری ماشین آمازون است. او با ایجاد راه‌حل‌هایی برای رفع مشکلات رایج تجاری، به مشتریان کمک می‌کند تا خدمات هوش مصنوعی AWS را اتخاذ کنند.