Îmbunătățiți experiența de transcriere prin streaming cu stabilizarea parțială a rezultatelor Amazon Transcribe

Nodul sursă: 853081

Indiferent dacă urmăriți o transmisie live a echipei dvs. preferate de fotbal, purtați o conversație video cu un furnizor sau sunăți banca dvs. cu privire la o plată a împrumutului, difuzarea conținutului de vorbire este peste tot. Puteți aplica un serviciu de transcriere în flux pentru a genera subtitrări pentru înțelegerea și accesibilitatea conținutului, pentru a crea metadate pentru a permite căutarea sau pentru a extrage informații pentru analiza apelurilor. Aceste servicii de transcriere procesează conținutul audio în flux și generează rezultate de transcriere parțiale până când oferă o transcriere finală pentru un segment de vorbire continuă. Cu toate acestea, unele cuvinte sau fraze din aceste rezultate parțiale se pot schimba, deoarece serviciul înțelege și mai mult contextul audio.

Suntem bucuroși să vă anunțăm că Amazon Transcribe vă permite acum să activați și să configurați stabilizarea parțială a rezultatelor pentru transmiterea transcrierilor audio. Amazon Transcribe este un serviciu de recunoaștere automată a vorbirii (ASR) care permite dezvoltatorilor să adauge în timp real funcții de vorbire-text în aplicațiile lor pentru conținut la cerere și streaming. În loc să așteptați transcrierea unei propoziții întregi, puteți controla acum nivelul de stabilizare a rezultatelor parțiale. Transcrierea oferă 3 setări: înalt, mediu și scăzut. Setarea stabilizării „Înalt” permite fixarea unei porțiuni mai mari din rezultatele parțiale, schimbându-se doar ultimele cuvinte în timpul procesului de transcriere. Această funcție vă ajută să aveți mai multă flexibilitate în fluxurile de lucru de transcriere în flux pe baza experienței de utilizator pe care doriți să o creați.

În această postare, parcurgem avantajele acestei caracteristici și cum să o activăm prin consola Amazon Transcribe sau API.

Cum funcționează stabilizarea parțială a rezultatelor

Să ne aruncăm mai adânc în acest sens cu un exemplu.

În timpul conversațiilor zilnice, s-ar putea să credeți că auziți un anumit cuvânt sau frază, dar mai târziu vă dați seama că a fost incorect pe baza unui context suplimentar. Să presupunem că vorbeai cu cineva despre mâncare și i-ai auzit spunând „În seara asta, voi mânca o pere ...” Cu toate acestea, când difuzorul termină, îți dai seama că au spus de fapt „În seara asta voi mânca o pereche de clătite”. La fel cum oamenii ne pot schimba înțelegerea pe baza informațiilor disponibile, Amazon Transcribe folosește învățarea automată (ML) pentru a autocorecta transcrierea audio în funcție de contextul pe care îl primește. Pentru a activa acest lucru, Amazon Transcribe folosește rezultate parțiale.

În timpul procesului de transcriere în flux, Amazon Transcribe scoate bucăți din rezultate cu un isPartial steag. Rezultatele cu acest steag marcat ca true sunt cele pe care Amazon Transcribe le poate modifica în viitor în funcție de contextul suplimentar primit. După ce Amazon Transcribe a clasificat că are un context suficient pentru a depăși un anumit prag de încredere, rezultatele sunt stabilizate și isPartial semnalizatorul pentru acel rezultat parțial specific este marcat false. Dimensiunea ferestrei acestor rezultate parțiale ar putea varia de la câteva cuvinte la mai multe propoziții, în funcție de contextul fluxului.

Următoarea imagine afișează modul în care rezultatele parțiale sunt generate (și editate) în Amazon Transcribe pentru transcriere în flux.

Stabilizarea rezultatelor permite un control mai mare asupra latenței și preciziei rezultatelor transcrierii. În funcție de caz de utilizare, puteți acorda prioritate una față de cealaltă. De exemplu, atunci când furnizați subtitrări live, poate fi preferată o stabilizare ridicată a rezultatelor, deoarece viteza este mai importantă decât acuratețea. Pe de altă parte, pentru cazuri de utilizare, cum ar fi moderarea conținutului, este preferată o stabilizare mai mică, deoarece precizia poate fi mai importantă decât latența.

Un nivel ridicat de stabilitate permite stabilizarea mai rapidă a rezultatelor transcripției prin limitarea ferestrei de context pentru stabilizarea rezultatelor, dar poate duce la o precizie generală mai mică. Pe de altă parte, un nivel scăzut de stabilitate duce la rezultate mai precise ale transcrierii, dar rezultatele transcripției parțiale sunt mai susceptibile să se schimbe.

Cu API-ul de transcriere în flux, puteți controla acum stabilitatea rezultatelor parțiale în fluxul de transcriere.

Acum să ne uităm la modul de utilizare a funcției.

Accesați stabilizarea parțială a rezultatelor prin consola Amazon Transcribe

Pentru a începe să utilizați stabilizarea parțială a rezultatelor pe consola Amazon Transcribe, parcurgeți următorii pași:

  1. Pe consola Amazon Transcribe, asigurați-vă că vă aflați într-un Regiune care acceptă streamingul Amazon Transcribe.

Pentru acest post, folosim us-east-1.

  1. În panoul de navigare, alegeți Transcriere în timp real.
  2. În Setari aditionale, permite Stabilizarea parțială a rezultatelor.

  1. Selectați nivelul de stabilitate.

Puteți alege între trei niveluri:

  • Înalt - Oferă cele mai stabile rezultate ale transcrierii parțiale cu o precizie mai mică comparativ cu setările Mediu și Scăzut. Este mai puțin probabil ca rezultatele să se schimbe pe măsură ce se adună un context suplimentar.
  • Mediu - Oferă rezultate de transcriere parțiale care au un echilibru între stabilitate și precizie
  • Jos - Oferă rezultate de transcriere parțiale relativ mai puțin stabile cu o precizie mai mare comparativ cu setările Înalte și Medii. Rezultatele sunt actualizate pe măsură ce se adună și se utilizează un context suplimentar.

  1. Alege Începeți streamingul pentru a reda un flux și a verifica rezultatele.

Accesați stabilizarea parțială a rezultatelor prin API

În această secțiune, demonstrăm transmiterea în flux cu HTTP / 2. Puteți activa nivelul preferat de stabilizare a rezultatelor parțiale într-o cerere API.

Activați această caracteristică prin enable-partial-results-stabilization steagul și partial-results-stability parametrii de intrare de nivel:

POST /stream-transcription HTTP/2 x-amzn-transcribe-language-code: LanguageCode x-amzn-transcribe-sample-rate: MediaSampleRateHertz x-amzn-transcribe-media-encoding: MediaEncoding x-amzn-transcribe-session-id: SessionId x-amzn-transcribe-enable-partial-results-stabilization= true x-amzn-transcribe-partial-results-stability = low | medium | high 

Activarea stabilizării parțiale a rezultatelor introduce marcajul parametrilor suplimentari Stable în răspunsul API la nivelul articolului în rezultatele transcrierii. Dacă un element de rezultate parțiale în rezultatul transcrierii în flux are Stable steag marcat ca true, transcrierea articolului corespunzător în rezultatele parțiale nu se modifică indiferent de contextul ulterior identificat de Amazon Transcribe. Dacă Stable steagul este marcat ca false, există încă șansa ca elementul corespunzător să se schimbe în viitor, până la IsPartial steagul este marcat ca false.

Următorul cod arată răspunsul nostru API:

{ "Alternatives": [ { "Items": [ { "Confidence": 0, "Content": "Amazon", "EndTime": 1.22, "Stable": true, "StartTime": 0.78, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "is", "EndTime": 1.63, "Stable": true, "StartTime": 1.46, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "the", "EndTime": 1.76, "Stable": true, "StartTime": 1.64, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 0, "Content": "largest", "EndTime": 2.31, "Stable": true, "StartTime": 1.77, "Type": "pronunciation", "VocabularyFilterMatch": false }, { "Confidence": 1, "Content": "rainforest", "EndTime": 3.34, "Stable": true, "StartTime": 2.4, "Type": "pronunciation", "VocabularyFilterMatch": false }, ], "Transcript": "Amazon is the largest rainforest " } ], "EndTime": 4.33, "IsPartial": false, "ResultId": "f4b5d4dd-b685-4736-b883-795dc3f7f636", "StartTime": 0.78 } 

Concluzie

Această postare introduce funcția de stabilizare a rezultatelor parțiale recent lansată în Amazon Transcribe. Pentru mai multe informații, consultați Amazon Transcribe Documentație de stabilizare a rezultatelor parțiale.

Pentru a afla mai multe despre API-ul Amazon Transcribe Streaming Transcription, consultați Utilizarea streamingului Amazon Transcribe cu HTTP / 2 și Utilizarea streamingului Amazon Transcribe cu WebSockets.


Despre autor

Alex Chirayath este un SDE în Amazon Machine Learning Solutions Lab. El îi ajută pe clienți să adopte serviciile AWS AI prin crearea de soluții pentru soluționarea problemelor obișnuite de afaceri.

Sursă: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-now-supports-partial-results-stabilization-for-streaming-audio/

Timestamp-ul:

Mai mult de la Blog de AWS Machine Learning