Δημιουργήστε σημειώσεις συσκέψεων υψηλής ποιότητας χρησιμοποιώντας το Amazon Transcribe και το Amazon Comprehend

Κόμβος πηγής: 1475220

Οι οργανισμοί συνεχίζουν να αξιολογούν τις ρυθμίσεις εργασίας εξ αποστάσεως και να διερευνούν τη μετάβαση σε ένα υβριδικό μοντέλο εργατικού δυναμικού. Αναδυόμενες τάσεις προτείνουν ότι όχι μόνο έχει αυξηθεί ο αριθμός των διαδικτυακών συναντήσεων που παρακολουθούν οι εργαζόμενοι σε καθημερινή βάση, αλλά και ο αριθμός των συμμετεχόντων ανά συνάντηση. Μία από τις βασικές προκλήσεις με τις διαδικτυακές συναντήσεις είναι η διασφάλιση αποτελεσματικής διάδοσης πληροφοριών σε όλους τους συμμετέχοντες μετά τη συνάντηση. Μπορεί να υπάρξει απώλεια πληροφοριών, είτε λόγω ad hoc, αλληλεπικαλυπτόμενης επικοινωνίας μεταξύ των συμμετεχόντων είτε λόγω τεχνικών προκλήσεων, όπως διακοπή δικτύου ή περιορισμοί εύρους ζώνης. Μπορείτε να ξεπεράσετε τέτοιες προκλήσεις χρησιμοποιώντας το AWS τεχνητή νοημοσύνη (AI) και μάθηση μηχανής Τεχνολογίες (ML) για την αυτόματη δημιουργία τεχνουργημάτων συσκέψεων, όπως περιλήψεις, στοιχεία παρότρυνσης για δράση και μεταγραφές συσκέψεων.

Σε αυτήν την ανάρτηση, παρουσιάζουμε μια λύση που χρησιμοποιεί το Amazon Chime SDK, Μεταγραφή Amazon, Κατανοήστε το Amazon, να Λειτουργίες βημάτων AWS για καταγραφή, επεξεργασία και δημιουργία αντικειμένων συνάντησης. Η προτεινόμενη λύση μας βασίζεται σε μια ροή εργασίας Step Functions που ξεκινά όταν το bot της συνάντησης αποθηκεύει το εγγεγραμμένο αρχείο σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κάδος. Η ροή εργασίας περιέχει βήματα που μεταγράφουν και αντλούν πληροφορίες από την εγγραφή της σύσκεψης. Τέλος, συγκεντρώνει τα δεδομένα σε ένα πρότυπο email και τα στέλνει στους συμμετέχοντες στη σύσκεψη. Μπορείτε εύκολα να προσαρμόσετε αυτήν τη ροή εργασίας για διαφορετικές περιπτώσεις χρήσης, όπως λύσεις διαδικτυακών διασκέψεων.

Επισκόπηση λύσεων

Η εφαρμογή χωρίζεται κυρίως σε δύο μέρη: τη λύση συνδιάσκεψης που δημιουργήθηκε χρησιμοποιώντας το Amazon Chime SDK και τη ροή εργασιών επεξεργασίας που βασίζεται σε AI/ML που υλοποιείται χρησιμοποιώντας το Amazon Transcribe και το Amazon Comprehend. Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική.

Εφαρμογή συνδιάσκεψης Amazon Chime

Η εφαρμογή διάσκεψης είναι μια εφαρμογή που βασίζεται στον ιστό που έχει δημιουργηθεί χρησιμοποιώντας το Amazon Chime JS SDK και φιλοξενείται χρησιμοποιώντας έναν συνδυασμό Υπηρεσία ελαστικών εμπορευματοκιβωτίων Amazon (Amazon ECS), AWS Lambda, να Amazon API Gateway. Οι πληροφορίες συνεδρίας για τις συναντήσεις αποθηκεύονται στο Amazon DynamoDB τραπέζια. Κατά τη διάρκεια μιας κλήσης συνδιάσκεψης, οι πληροφορίες συνεδρίας καταγράφονται χρησιμοποιώντας ένα Amazon EventBridge σύνδεση για το Amazon Chime SDK και γραμμένο στους πίνακες DynamoDB. Οι ακόλουθες δυνατότητες είναι διαθέσιμες στην εφαρμογή web:

  • Ξεκινήστε ή συμμετάσχετε σε μια κλήση – Όταν ένας χρήστης ζητά να συμμετάσχει ή να ξεκινήσει μια κλήση, το αίτημα καλεί το Amazon Chime SDK για να ξεκινήσει ή να συμμετάσχει σε μια σύσκεψη. Μοναδικό MeetingId δημιουργείται και διαβιβάζεται μαζί με το αίτημα και άλλοι συμμετέχοντες μπορούν να το χρησιμοποιήσουν MeetingId για να συμμετάσχετε στην ίδια κλήση.
  • Καταγραφή κλήσης - Οταν ο record call ξεκινά μια ενέργεια, ξεκινά μια εργασία Amazon ECS, η οποία λειτουργεί ως bot εγγραφής συσκέψεων. Αυτό το bot εκτελεί ένα πρόγραμμα περιήγησης Firefox χωρίς κεφάλι και συμμετέχει στην κλήση ως συμμετέχων. Το πρόγραμμα περιήγησης χωρίς κεφαλή εγγράφεται στην οθόνη στην εργασία Amazon ECS χρησιμοποιώντας FFMPEG και εικονικούς δρομολογητές ήχου.
  • Σταματήστε την εγγραφή – Όταν εκκινείται αυτή η ενέργεια, διακόπτει την εργασία Amazon ECS που εκτελεί το πρόγραμμα περιήγησης χωρίς κεφαλές. Κατά τη διαδικασία τερματισμού λειτουργίας, η εργασία Amazon ECS εγγράφει την εγγραφή βίντεο σε έναν κάδο S3.
  • Μεταδεδομένα συνεδρίας – Κατά τη διάρκεια της κλήσης συνδιάσκεψης, τα μεταδεδομένα της σύσκεψης μεταδίδονται σε ροή από έναν Σύνδεση Amazon EventBridge για το Amazon Chime. Ο κανόνας EventBridge έχει ρυθμιστεί με έναν στόχο Lambda και εγγράφει τα δεδομένα σε έναν πίνακα DynamoDB.

Οι προηγούμενες λειτουργίες επιτρέπουν στους χρήστες να ξεκινούν, να παρακολουθούν και να καταγράφουν κλήσεις συνδιάσκεψης. Η εγγραφή κλήσης δημιουργεί ένα αρχείο βίντεο που παραδίδεται σε έναν κάδο S3. Ο κάδος S3 έχει διαμορφωθεί με ένα Ειδοποίηση εκδήλωσης Amazon S3 των s3:ObjectCreated:Put συμβάν και εκκινεί τη ροή εργασιών επεξεργασίας AI/ML. Αυτές οι λύσεις είναι διαθέσιμες ως επιδείξεις στο Σελίδα Amazon Chime JS SDK στο GitHub.

Ροή εργασιών επεξεργασίας AI/ML

Η ροή εργασίας επεξεργασίας AI/ML που έχει δημιουργηθεί με τις Step Functions χρησιμοποιεί το Amazon Transcribe και το Amazon Comprehend. Το αποτέλεσμα αυτής της ροής εργασίας επεξεργασίας είναι ένα καλοφτιαγμένο email που αποστέλλεται στον κάτοχο της κλήσης διάσκεψης χρησιμοποιώντας Απλή υπηρεσία email της Amazon (Amazon SES). Η ακόλουθη σειρά βημάτων εμπλέκεται στη ροή εργασίας AI/ML:

  1. Ομιλία στο κείμενο – Η θέση του εγγεγραμμένου αρχείου στο Amazon S3 μεταβιβάζεται ως παράμετρος στο Amazon Transcribe start_transcription_job API που δημιουργεί την εργασία ασύγχρονης μεταγραφής. Το Amazon Transcribe μετατρέπει αυτόματα την ηχογραφημένη ομιλία σε κείμενο με ακρίβεια. Εάν το Amazon Transcribe χρειάζεται να αναγνωρίσει λέξεις και φράσεις για συγκεκριμένο τομέα, όπως ονόματα προϊόντων ή εμπορικών σημάτων, τεχνική ορολογία ή ονόματα ατόμων, υπάρχουν δύο επιλογές: η χρήση του προσαρμοσμένο λεξιλόγιο χαρακτηριστικό ή χρήση μοντέλα προσαρμοσμένης γλώσσας. Το προσαρμοσμένο λεξιλόγιο ενισχύει την αναγνώριση ομιλίας για μια διακριτή λίστα όρων εκτός λεξικού. Τα προσαρμοσμένα μοντέλα γλώσσας σάς επιτρέπουν να χρησιμοποιείτε προϋπάρχοντα κείμενο ή μεταγραφές ήχου για συγκεκριμένο τομέα για να δημιουργήσετε μια προσαρμοσμένη μηχανή ομιλίας. Μπορείτε επίσης να δημιουργήστε ένα προσαρμοσμένο λεξιλόγιο ειδικά για τον οργανισμό σας. Το παρακάτω είναι ένα δείγμα κώδικα που χρησιμοποιεί Boto3 API για να ξεκινήσει μια εργασία ασύγχρονης μεταγραφής με προσαρμοσμένο λεξιλόγιο:
response = client.start_transcription_job( TranscriptionJobName=job_name, #Name of the job LanguageCode=language_code, #Language code for the language in media file MediaFormat=media_format, #Format of input media file Media={ 'MediaFileUri': file_uri #S3 object location of input media file }, Settings={ 'VocabularyName': vocab_name #Name of the custom vocabulary to use }
)

  1. Προσδιορίστε προσαρμοσμένες οντότητες – Αφού δημιουργηθεί το μεταγραμμένο κείμενο, χρησιμοποιήστε το προσαρμοσμένη αναγνώριση οντότητας δυνατότητα στο Amazon Comprehend για εξαγωγή των επισημάνσεων της συνάντησης, των επακόλουθων ενεργειών και των ερωτήσεων που τίθενται. Μπορείτε να εκπαιδεύσετε ένα μοντέλο ώστε να αναγνωρίζει μια νέα οντότητα. Χρησιμοποιήστε ACTIONS για να προσδιορίσετε τα στοιχεία ενεργειών παρακολούθησης από τη σύσκεψη. Χρησιμοποιήστε ΕΡΩΤΗΣΕΙΣ για να προσδιορίσετε τις ερωτήσεις που έκαναν οι συμμετέχοντες στη συνάντηση. Μπορείτε επίσης να δημιουργήστε έναν προσαρμοσμένο αναγνωριστικό οντοτήτων χρησιμοποιώντας το Amazon Comprehend. Θα μπορούσατε να χρησιμοποιήσετε το κείμενο από τις σημειώσεις, τα e-mail και τα τεχνικά έγγραφα της προηγούμενης σύσκεψής σας για την εκπαίδευση του μοντέλου. Αυτά μπορεί να είναι αρχεία PDF, Word και έγγραφα απλού κειμένου. Θα πρέπει να αποθηκευτούν σε έναν κάδο S3. Οι σχολιασμοί σας επιτρέπουν να παρέχετε τη θέση των προσαρμοσμένων οντοτήτων σε αυτά τα έγγραφα. Θα μπορούσατε επίσης να παραθέσετε τις οντότητες σε έγγραφα απλού κειμένου χρησιμοποιώντας Λίστες οντοτήτων. Το Amazon Comprehend θα μάθει για το είδος των εγγράφων και το πλαίσιο όπου εμφανίζονται οι οντότητες για την κατασκευή του αναγνωριστικού. Παρακάτω είναι ένα δείγμα αρχείου CSV για Λίστες οντοτήτων με τις προσαρμοσμένες οντότητες QUESTIONS και ACTIONS.
    Text, Type
    how to, QUESTIONS
    when can, QUESTIONS
    what is the, QUESTIONS
    schedule meeting, ACTIONS
    architecture, ACTIONS
    pricing, ACTIONS
    

    Ακολουθεί ένα δείγμα κώδικα που χρησιμοποιεί τα Boto3 SDK για την έναρξη ανίχνευσης ασύγχρονης οντότητας από την έξοδο μεταγραφής:

    response = client.start_entities_detection_job( InputDataConfig={ 'S3Uri': input_path, #Location of the transcribed output 'InputFormat': 'ONE_DOC_PER_FILE' #or ‘ONE_DOC_PER_LINE’ }, OutputDataConfig={ 'S3Uri': output_path #Location of the comprehend output }, EntityRecognizerArn=cer_arn, #The Amazon Resource Name (ARN) that identifies the specific entity recognizer LanguageCode=language_code, #Language code for the transcribed output DataAccessRoleArn=role, JobName=job_name, #Name of the job
    )
    

  2. Αποστολή email – Η επεξεργασία από το προηγούμενο βήμα δημιουργεί δεδομένα που αποθηκεύονται σε έναν κάδο S3 και έναν πίνακα DynamoDB. Τέλος, αυτά τα αποτελέσματα συγκεντρώνονται από μια συνάρτηση Lambda, μορφοποιούνται σε email και αποστέλλονται στους συμμετέχοντες στη σύσκεψη χρησιμοποιώντας το Amazon SES.

Ολόκληρη η ροή εργασιών επεξεργασίας AI/ML φαίνεται στο παρακάτω σχήμα.

Παραγωγή

Το παρακάτω σχήμα δείχνει ένα δείγμα ηλεκτρονικού ταχυδρομείου που αποστέλλεται στους συμμετέχοντες στη σύσκεψη από τη ροή εργασιών επεξεργασίας AI/ML. Το email παρέχει λεπτομέρειες όπως ο τίτλος της σύσκεψης, οι συμμετέχοντες, τα βασικά σημεία συζήτησης και τα στοιχεία δράσης.

Χαρακτηριστικά

Σε αυτήν την ανάρτηση, δείξαμε πώς μπορείτε να χρησιμοποιήσετε υπηρεσίες AWS AI όπως το Amazon Transcribe και το Amazon Comprehend μαζί με το Amazon Chime SDK για να δημιουργήσετε τεχνουργήματα συναντήσεων υψηλής ποιότητας. Επιδείξαμε την προσαρμοσμένη δυνατότητα λεξιλογίου του Amazon Transcribe και το χαρακτηριστικό προσαρμοσμένων οντοτήτων του Amazon Comprehend που σας επιτρέπουν να προσαρμόσετε τα τεχνουργήματα με βάση τις απαιτήσεις της επιχείρησής σας.

Μάθετε περισσότερα σχετικά με Υπηρεσίες AWS AI και ξεκινήστε να δημιουργείτε τη δική σας προσαρμοσμένη ροή εργασιών επεξεργασίας χρησιμοποιώντας Λειτουργίες βημάτων AWS και Amazon Chime SDK.


Σχετικά με τους Συγγραφείς

Rajdeep Tarat είναι Senior Solutions Architect στην AWS. Ζει στο Bengaluru της Ινδίας και βοηθά τους πελάτες να αρχιτεκτονήσουν και να βελτιστοποιήσουν εφαρμογές στο AWS. Στον ελεύθερο χρόνο του, του αρέσει η μουσική, ο προγραμματισμός και το διάβασμα.

Venugopal Pai είναι αρχιτέκτονας λύσεων στην AWS. Ζει στο Bengaluru της Ινδίας και βοηθά τους ψηφιακούς εγγενείς πελάτες να κλιμακώσουν και να βελτιστοποιήσουν τις εφαρμογές τους στο AWS.

Πηγή: https://aws.amazon.com/blogs/machine-learning/generate-high-quality-meeting-notes-using-amazon-transcribe-and-amazon-comprehend/

Σφραγίδα ώρας:

Περισσότερα από Ιστολόγιο μηχανικής εκμάθησης AWS