چه در حال تماشای پخش زنده از تیم فوتبال مورد علاقه خود باشید، چه در حال چت تصویری با فروشنده هستید یا با بانک خود در مورد پرداخت وام تماس می گیرید، پخش محتوای سخنرانی همه جا وجود دارد. میتوانید از یک سرویس رونویسی پخش جریانی برای تولید زیرنویسها برای درک محتوا و دسترسی، ایجاد فراداده برای فعال کردن جستجو، یا استخراج اطلاعات بینش برای تجزیه و تحلیل تماس استفاده کنید. این سرویسهای رونویسی محتوای صوتی جریانی را پردازش میکنند و نتایج رونویسی جزئی تولید میکنند تا زمانی که رونویسی نهایی را برای بخشی از گفتار پیوسته ارائه کنند. با این حال، برخی از کلمات یا عبارات در این نتایج جزئی ممکن است تغییر کنند، زیرا سرویس بیشتر زمینه صدا را درک می کند.
ما خوشحالیم که اعلام کنیم که Amazon Transcript اکنون به شما امکان می دهد تثبیت نتایج جزئی را برای پخش رونوشت های صوتی فعال و پیکربندی کنید. رونویسی آمازون یک خدمات تشخیص خودکار گفتار (ASR). که توسعه دهندگان را قادر می سازد تا قابلیت های گفتار به متن در زمان واقعی را برای محتوای درخواستی و جریانی به برنامه های خود اضافه کنند. به جای اینکه منتظر بمانید تا یک جمله کامل رونویسی شود، اکنون می توانید سطح تثبیت نتایج جزئی را کنترل کنید. رونویسی 3 تنظیم را ارائه می دهد: زیاد، متوسط و کم. تنظیم تثبیت "بالا" اجازه می دهد تا بخش بیشتری از نتایج جزئی با تغییر تنها چند کلمه آخر در طول فرآیند رونویسی ثابت شود. این ویژگی به شما کمک میکند تا بر اساس تجربه کاربری که میخواهید ایجاد کنید، در گردشهای کاری رونویسی جریانی انعطافپذیری بیشتری داشته باشید.
در این پست، مزایای این ویژگی و نحوه فعال کردن آن از طریق کنسول Amazon Transcript یا API را مرور می کنیم.
تثبیت نتایج جزئی چگونه کار می کند
بیایید با یک مثال عمیق تر به این موضوع بپردازیم.
در طول مکالمات روزانه خود، ممکن است فکر کنید کلمه یا عبارت خاصی را می شنوید، اما بعداً متوجه می شوید که بر اساس زمینه اضافی نادرست بوده است. فرض کنید با کسی در مورد غذا صحبت میکردید، و شنیدید که میگفت: «امشب، من یک گلابی میخورم...» اما وقتی سخنران تمام میشود، متوجه میشوید که او در واقع گفته است: «امشب من یک جفت پنکیک میخورم». همانطور که انسان ها ممکن است درک ما را بر اساس اطلاعات موجود تغییر دهند، Amazon Transcript نیز از یادگیری ماشینی (ML) برای تصحیح خودکار رونویسی جریان صوتی بر اساس زمینه ای که دریافت می کند استفاده می کند. برای فعال کردن این، Amazon Transcript از نتایج جزئی استفاده می کند.
در طول فرآیند رونویسی استریم، رونویسی آمازون تکههایی از نتایج را با یک خروجی خروجی میدهد isPartial
پرچم. نتایج با این پرچم به عنوان علامت گذاری شده است true
مواردی هستند که آمازون رونویسی ممکن است در آینده بسته به زمینه اضافی دریافت شده تغییر کند. پس از اینکه آمازون رونویسی طبقه بندی کرد که زمینه کافی برای بیش از یک آستانه اطمینان خاص دارد، نتایج تثبیت می شوند و isPartial
پرچم برای آن نتیجه جزئی خاص مشخص شده است false
. اندازه پنجره این نتایج جزئی می تواند از چند کلمه تا چند جمله بسته به زمینه جریان متغیر باشد.
تصویر زیر نحوه تولید (و ویرایش) نتایج جزئی را در Amazon Transcript برای رونویسی جریان نشان می دهد.
تثبیت نتایج کنترل بیشتر بر تأخیر و دقت نتایج رونویسی را امکان پذیر می کند. بسته به مورد استفاده، ممکن است یکی را بر دیگری اولویت دهید. به عنوان مثال، هنگام ارائه زیرنویس زنده، تثبیت بالای نتایج ممکن است ترجیح داده شود زیرا سرعت مهمتر از دقت است. از طرف دیگر برای موارد استفاده مانند تعدیل محتوا، تثبیت کمتر ترجیح داده می شود زیرا دقت ممکن است مهمتر از تأخیر باشد.
سطح پایداری بالا با محدود کردن پنجره زمینه برای تثبیت نتایج، تثبیت سریعتر نتایج رونویسی را امکانپذیر میکند، اما میتواند منجر به کاهش دقت کلی شود. از سوی دیگر، سطح پایداری پایین منجر به نتایج رونویسی دقیقتر میشود، اما نتایج رونویسی جزئی احتمال تغییر بیشتری دارد.
با استفاده از API رونویسی جریانی، اکنون میتوانید پایداری نتایج جزئی را در جریان رونویسی خود کنترل کنید.
حالا بیایید نحوه استفاده از این ویژگی را بررسی کنیم.
از طریق کنسول Amazon Transcript به تثبیت نتایج جزئی دسترسی داشته باشید
برای شروع استفاده از تثبیت نتایج جزئی در کنسول آمازون رونویسی، مراحل زیر را انجام دهید:
- در کنسول آمازون رونویسی، مطمئن شوید که در یک منطقه ای که از پخش جریانی آمازون پشتیبانی می کند.
برای این پست از us-east-1
.
- در صفحه پیمایش، را انتخاب کنید رونویسی در زمان واقعی.
- تحت تنظیمات اضافی، فعال کنید تثبیت جزئی نتایج.
- سطح ثبات خود را انتخاب کنید.
شما می توانید بین سه سطح انتخاب کنید:
- زیاد - پایدارترین نتایج رونویسی جزئی را با دقت کمتر در مقایسه با تنظیمات متوسط و پایین ارائه می دهد. با جمعآوری زمینههای اضافی، احتمال تغییر نتایج کمتر است.
- متوسط - نتایج رونویسی جزئی را ارائه می دهد که تعادلی بین ثبات و دقت دارد
- کم - نتایج رونویسی جزئی با ثبات نسبتاً کمتری را با دقت بالاتر در مقایسه با تنظیمات High و Medium ارائه می دهد. نتایج با جمع آوری و استفاده از زمینه اضافی به روز می شوند.
- را انتخاب کنید پخش جریانی را شروع کنید برای پخش یک جریان و بررسی نتایج.
از طریق API به تثبیت نتایج جزئی دسترسی پیدا کنید
در این بخش، جریان با HTTP/2 را نشان می دهیم. میتوانید سطح مطلوب تثبیت نتایج جزئی را در یک درخواست API فعال کنید.
شما این ویژگی را از طریق فعال می کنید enable-partial-results-stabilization
پرچم و partial-results-stability
پارامترهای ورودی سطح:
فعال کردن تثبیت نتایج جزئی، پرچم پارامتر اضافی را معرفی می کند Stable
در پاسخ API در سطح آیتم در نتایج رونویسی. اگر یک مورد نتایج جزئی در نتیجه رونویسی جریانی دارای این باشد Stable
پرچم به عنوان علامت گذاری شده است true
، رونویسی مورد مربوطه در نتایج جزئی صرف نظر از هر زمینه بعدی که توسط Amazon Transcript شناسایی شده است تغییر نمی کند. اگر Stable
پرچم به عنوان علامت گذاری شده است false
، هنوز این احتمال وجود دارد که مورد مربوطه در آینده تغییر کند، تا زمانی که IsPartial
پرچم به عنوان علامت گذاری شده است false
.
کد زیر پاسخ API ما را نشان می دهد:
نتیجه
این پست ویژگی تثبیت نتایج جزئی را که اخیراً در Amazon Transcript راه اندازی شده معرفی می کند. برای اطلاعات بیشتر، به آمازون رونویسی اسناد تثبیت نتایج جزئی.
برای کسب اطلاعات بیشتر در مورد Amazon Transcribe Streaming Transcription API، بررسی کنید استفاده از آمازون رونویسی جریانی با HTTP/2 و با استفاده از پخش جریانی رونویسی آمازون با WebSockets.
درباره نویسنده
الکس چیرایت یک SDE در آزمایشگاه راه حل های یادگیری ماشین آمازون است. او با ایجاد راهحلهایی برای رفع مشکلات رایج تجاری، به مشتریان کمک میکند تا خدمات هوش مصنوعی AWS را اتخاذ کنند.
- "
- 100
- 77
- دسترسی
- اضافی
- AI
- آمازون
- آموزش ماشین آمازون
- آمازون رونوشت
- علم تجزیه و تحلیل
- API
- برنامه های کاربردی
- سمعی
- AWS
- بانک
- بنا
- کسب و کار
- صدا
- موارد
- تغییر دادن
- رمز
- مشترک
- اعتماد به نفس
- محتوا
- تعدیل محتوا
- گفتگو
- مشتریان
- توسعه دهندگان
- خوردن
- ویژگی
- انعطاف پذیری
- غذا
- آینده
- زیاد
- چگونه
- چگونه
- HTTPS
- انسان
- تصویر
- اطلاعات
- بینش
- IT
- رهبری
- یاد گرفتن
- یادگیری
- سطح
- وام
- فراگیری ماشین
- متوسط
- ML
- جهت یابی
- پیشنهادات
- دیگر
- پرداخت
- عبارات
- محدوده
- زمان واقعی
- پاسخ
- نتایج
- جستجو
- خدمات
- محیط
- اندازه
- فوتبال
- مزایا
- گوینده
- تشخیص گفتار
- سرعت
- ثبات
- شروع
- جریان
- پشتیبانی از
- سخنگو
- آینده
- رونوشت
- تصویری
- چت تصویری
- کلمات