Amazon Polly là một chuyển văn bản thành giọng nói dịch vụ sử dụng công nghệ học sâu tiên tiến để tổng hợp giọng nói giống như âm thanh tự nhiên của con người. Nó được sử dụng trong nhiều trường hợp sử dụng khác nhau, chẳng hạn như hệ thống trung tâm liên lạc, mang lại trải nghiệm người dùng trò chuyện với giọng nói giống như con người để kiểm tra trạng thái tự động trong thời gian thực, yêu cầu thanh toán và tài khoản tự động và của các hãng tin tức như The Washington Post để cho phép độc giả nghe các bài báo.
Tính đến ngày hôm nay, Amazon Polly cung cấp hơn 60 giọng nói trong hơn 30 biến thể ngôn ngữ. Amazon Polly cũng sử dụng ngữ cảnh để phát âm một số từ khác nhau dựa trên thì của động từ và thông tin ngữ cảnh khác. Ví dụ: “read” trong “I read a book” (thì hiện tại) và “I will read a book” (thì tương lai) được phát âm khác nhau.
Tuy nhiên, trong một số trường hợp, bạn có thể muốn tùy chỉnh cách Amazon Polly phát âm một từ. Ví dụ: bạn có thể cần phải khớp cách phát âm với phương ngữ địa phương hoặc bản ngữ. Tên của sự vật (ví dụ: Tomato có thể được phát âm là tom-ah-to or tom-ay-to), người, đường phố hoặc địa điểm thường được phát âm theo nhiều cách khác nhau.
Trong bài đăng này, chúng tôi trình bày cách bạn có thể tận dụng các từ vựng để tạo cách phát âm tùy chỉnh. Bạn có thể áp dụng từ vựng cho các trường hợp sử dụng như xuất bản, giáo dục hoặc trung tâm cuộc gọi.
Tùy chỉnh cách phát âm bằng thẻ SSML
Giả sử bạn phát một podcast phổ biến từ Úc và bạn sử dụng giọng nói của Amazon Polly Australian English (Olivia) để chuyển tập lệnh của bạn thành giọng nói giống như con người. Trong một trong các tập lệnh của mình, bạn muốn sử dụng các từ mà giọng nói của Amazon Polly chưa biết. Ví dụ: bạn muốn gửi lời chúc Mātariki (Năm mới của người Maori) đến thính giả người New Zealand của bạn. Đối với những trường hợp như vậy, Amazon Polly hỗ trợ phát âm phiên âm, bạn có thể sử dụng cách phát âm này để đạt được cách phát âm gần với cách phát âm chính xác trong tiếng nước ngoài.
Bạn có thể dùng Ngôn ngữ đánh dấu tổng hợp giọng nói (SSML) để gợi ý cách phát âm ngữ âm trong thuộc tính ph. Hãy để tôi chỉ cho bạn cách bạn có thể sử dụng Thẻ SSML.
Đầu tiên, hãy đăng nhập vào Bảng điều khiển AWS và tìm kiếm Amazon Polly trong thanh tìm kiếm ở trên cùng. Chọn Amazon Polly và sau đó chọn nút Dùng thử Polly.
Trong bảng điều khiển Amazon Polly, chọn Tiếng Anh Úc từ menu ngôn ngữ thả xuống và nhập văn bản sau vào hộp Văn bản đầu vào, sau đó nhấp vào Nghe để kiểm tra cách phát âm.
Tôi chúc tất cả các bạn một Mātariki thật Hạnh phúc.
Bài phát biểu mẫu không áp dụng cách phát âm phiên âm:
Nếu bạn nghe bài phát biểu mẫu ở trên, bạn có thể nhận thấy rằng cách phát âm của Matariki - một từ không phải là một phần của tiếng Anh Úc - không hoàn toàn đúng chỗ. Bây giờ, hãy xem làm thế nào trong những tình huống như vậy, chúng ta có thể sử dụng cách phát âm phiên âm bằng cách sử dụng Thẻ SSML để tùy chỉnh bài phát biểu do Amazon Polly tạo ra.
Để sử dụng thẻ SSML, hãy BẬT tùy chọn SSML trong bảng điều khiển Amazon Polly. Sau đó, sao chép và dán tập lệnh SSML sau có chứa cách phát âm phiên âm cho Matariki được chỉ định bên trong thuộc tính ph của nhãn.
Với nhãn, Amazon Polly sử dụng cách phát âm được chỉ định bởi thuộc tính ph thay vì cách phát âm chuẩn được liên kết theo mặc định với ngôn ngữ được sử dụng bởi giọng nói đã chọn.
Bài phát biểu mẫu sau khi áp dụng cách phát âm theo phiên âm:
Nếu bạn nghe thấy âm thanh mẫu, bạn sẽ nhận thấy rằng chúng tôi đã chọn cách phát âm khác cho một số nguyên âm (ví dụ: ā) để Amazon Polly tổng hợp các âm gần với cách phát âm chính xác hơn. Bây giờ bạn có thể có câu hỏi, làm cách nào để tạo phiên âm “mA: .tA: .ri.ki ” cho từ Matariki?
Bạn có thể tạo phiên âm bằng cách tham khảo Bảng âm vị và Viseme cho các ngôn ngữ được hỗ trợ. Trong ví dụ trên, chúng tôi đã sử dụng âm vị cho tiếng Anh Úc.
Amazon Polly cung cấp hỗ trợ trong hai bảng chữ cái phiên âm: IPA và X-Sampa. Lợi ích của X-Sampa là chúng là các ký tự ASCII tiêu chuẩn, vì vậy việc gõ phiên âm bằng bàn phím thông thường sẽ dễ dàng hơn. Bạn có thể sử dụng IPA hoặc X-Sampa để tạo bản ghi âm của mình, nhưng hãy đảm bảo luôn nhất quán với lựa chọn của bạn, đặc biệt khi bạn sử dụng tệp từ vựng mà chúng tôi sẽ đề cập trong phần tiếp theo.
Mỗi âm vị trong bảng âm vị biểu thị một âm lời nói. Các chữ cái in đậm trong "Thí dụ" cột của bảng Âm vị / Âm vị trong trang Tiếng Anh Úc được liên kết ở trên đại diện cho một phần của từ mà “Âm vị” tương ứng với. Ví dụ: âm vị / j / đại diện cho âm thanh mà một người nói tiếng Anh Úc tạo ra khi phát âm chữ cái “y” trong “yes”.
Tùy chỉnh cách phát âm bằng từ vựng
Thẻ âm vị thích hợp cho các trường hợp một lần để tùy chỉnh các trường hợp riêng biệt, nhưng chúng không thể mở rộng. Nếu bạn xử lý khối lượng lớn văn bản, được quản lý bởi các biên tập viên và người đánh giá khác nhau, chúng tôi khuyên bạn nên sử dụng từ vựng. Sử dụng từ vựng, bạn có thể đạt được sự nhất quán trong việc thêm các cách phát âm tùy chỉnh và đồng thời giảm bớt nỗ lực thủ công khi chèn các thẻ âm vị vào tập lệnh.
Một phương pháp hay là sau khi bạn kiểm tra cách phát âm tùy chỉnh trên bảng điều khiển Amazon Polly bằng cách sử dụng , bạn tạo một thư viện các cách phát âm tùy chỉnh bằng cách sử dụng từ vựng. Sau khi tệp từ vựng được tải lên, Amazon Polly sẽ tự động áp dụng các cách phát âm ngữ âm được chỉ định trong tệp từ vựng và loại bỏ sự cần thiết phải cung cấp thủ công nhãn.
Tạo một tệp từ vựng
Một tệp từ vựng chứa ánh xạ giữa các từ và cách phát âm ngữ âm của chúng. Đặc tả Lexicon của cách phát âm (PLS) là một khuyến nghị của W3C để chỉ định thông tin phát âm có thể tương tác. Sau đây là một tài liệu PLS mẫu:
Đảm bảo rằng bạn sử dụng giá trị chính xác cho xml:lang
đồng ruộng. Sử dụng en-AU
nếu bạn đang tải lên tệp từ vựng để sử dụng với giọng nói tiếng Anh Úc của Amazon Polly. Để có danh sách đầy đủ các ngôn ngữ được hỗ trợ, hãy tham khảo Các ngôn ngữ được hỗ trợ bởi Amazon Polly.
Để chỉ định cách phát âm tùy chỉnh, bạn cần thêm phần tử là vùng chứa cho một mục từ vựng có một hoặc nhiều <grapheme>
phần tử và một hoặc nhiều thông tin phát âm được cung cấp bên trong <phoneme>
thành phần.
Sản phẩm <grapheme>
phần tử chứa văn bản mô tả chỉnh hình của thành phần. Bạn có thể sử dụng một <grapheme>
phần tử để chỉ định từ có cách phát âm mà bạn muốn tùy chỉnh. Bạn có thể thêm nhiều <grapheme>
các phần tử để chỉ định tất cả các biến thể từ, ví dụ có hoặc không có macro. Các <grapheme>
phần tử phân biệt chữ hoa chữ thường và trong quá trình tổng hợp giọng nói, chuỗi Amazon Polly khớp với các từ bên trong tập lệnh mà bạn đang chuyển đổi thành giọng nói. Nếu tìm thấy một kết quả phù hợp, nó sẽ sử dụng phần tử mô tả cách được phát âm để tạo ra phiên âm.
Vous sử dụng pouvez aussi <alias>
cho các chữ viết tắt thường được sử dụng. Trong ví dụ trước về tệp từ vựng, NZ được sử dụng làm bí danh cho New Zealand. Điều này có nghĩa là bất cứ khi nào Amazon Polly bắt gặp “NZ” (có chữ hoa / thường) trong phần nội dung văn bản, nó sẽ đọc hai chữ cái đó là “New Zealand”.
Để biết thêm thông tin về định dạng tệp từ vựng, hãy xem Phát âm Lexicon Specification (PLS) Phiên bản 1.0 trên trang web W3C.
Bạn có thể lưu tệp từ vựng dưới dạng tệp .pls hoặc .xml trước khi tải tệp đó lên Amazon Polly.
Tải lên và áp dụng tệp từ vựng
Tải tệp từ vựng của bạn lên Amazon Polly bằng cách sử dụng các hướng dẫn sau:
- Trên bảng điều khiển Amazon Polly, hãy chọn từ vựng trong khung điều hướng.
- Chọn Tải lên từ vựng.
- Nhập tên cho từ vựng rồi chọn một tập tin từ vựng.
- Chọn tệp để tải lên.
- Chọn Tải lên từ vựng.
Nếu một từ vựng có cùng tên (cho dù là tệp .pls hay .xml) đã tồn tại, thì việc tải lên từ vựng đó sẽ ghi đè lên từ vựng hiện có.
Bây giờ bạn có thể áp dụng từ vựng để tùy chỉnh cách phát âm.
- Chọn Text-to-Speech trong khung điều hướng.
- Mở rộng Cài đặt thêm.
- Bật Tùy chỉnh cách phát âm.
- Chọn từ vựng trên menu thả xuống.
Bạn cũng có thể chọn Tải lên từ vựng để tải lên tệp từ vựng mới (hoặc phiên bản mới).
Đó là một phương pháp hay để kiểm soát phiên bản tệp từ vựng trong kho mã nguồn. Giữ các cách phát âm tùy chỉnh trong một tệp từ vựng đảm bảo rằng bạn có thể liên tục tham khảo các cách phát âm ngữ âm cho các từ nhất định trong toàn bộ tổ chức. Ngoài ra, hãy ghi nhớ các giới hạn từ vựng phát âm được đề cập trên Hạn ngạch trong Amazon Polly .
Kiểm tra cách phát âm sau khi áp dụng từ vựng
Hãy thực hiện kiểm tra nhanh bằng cách sử dụng “Chúc tất cả thính giả của tôi ở NZ, một Mātariki thật hạnh phúc” làm văn bản đầu vào.
Chúng tôi có thể so sánh các tệp âm thanh trước và sau khi áp dụng từ điển.
Trước khi áp dụng từ điển:
Sau khi áp dụng từ vựng:
Kết luận
Trong bài đăng này, chúng tôi đã thảo luận về cách bạn có thể tùy chỉnh cách phát âm của các từ viết tắt thường được sử dụng hoặc các từ không có trong ngôn ngữ đã chọn trong Amazon Polly. Bạn có thể dùng Thẻ SSML rất phù hợp để chèn các tùy chỉnh một lần hoặc cho mục đích thử nghiệm. Chúng tôi khuyên bạn nên sử dụng Lexicon để tạo một bộ cách phát âm nhất quán cho các từ được sử dụng thường xuyên trong tổ chức của bạn. Điều này cho phép người viết nội dung của bạn dành thời gian để viết thay vì công việc tẻ nhạt là thêm các cách phát âm ngữ âm trong kịch bản một cách lặp đi lặp lại. Bạn có thể thử điều này trong tài khoản AWS của mình trên bảng điều khiển Amazon Polly.
Tóm tắt các nguồn
- Hướng dẫn dành cho nhà phát triển Amazon Polly
- Bảng điều khiển Amazon Polly
- Chi tiết sản phẩm Amazon Polly
Về các tác giả
Ratan Kumar là một Kiến trúc sư Giải pháp có trụ sở tại Auckland, New Zealand. Anh ấy làm việc với các khách hàng doanh nghiệp lớn để giúp họ thiết kế và xây dựng các ứng dụng quy mô internet an toàn, hiệu quả về chi phí và đáng tin cậy bằng cách sử dụng đám mây AWS. Anh ấy đam mê công nghệ và thích chia sẻ kiến thức thông qua các bài đăng trên blog và các buổi twitch.
Maciek Tegi là Nhà thiết kế âm thanh chính và Giám đốc sản phẩm của Polly Brand Voices. Anh ấy đã làm việc với năng lực chuyên môn trong ngành công nghiệp công nghệ, phim ảnh, quảng cáo và nội địa hóa trò chơi. Năm 2013, anh là kỹ sư âm thanh đầu tiên được thuê vào nhóm Alexa Text-To- Speech. Maciek đã tham gia vào việc phát hành 12 giọng Alexa TTS trên khắp các quốc gia khác nhau, hơn 20 giọng Polly và 4 giọng người nổi tiếng Alexa. Maciek là một vận động viên ba môn phối hợp và là một người chơi guitar acoustic cuồng nhiệt.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/customize-proncasting-using-lexicons-in-amazon-polly/
- "
- 100
- 116
- Giới thiệu
- Tài khoản
- Đạt được
- ngang qua
- tiên tiến
- Alexa
- Tất cả
- Đã
- đàn bà gan dạ
- các ứng dụng
- Nộp đơn
- âm thanh
- Châu Úc
- tự động
- Tự động
- AWS
- trước
- hưởng lợi
- thanh toán
- Blog
- Blog Posts
- thân hình
- biên giới
- Hộp
- thương hiệu
- xây dựng
- cuộc gọi
- Sức chứa
- trường hợp
- Người nổi tiếng
- nhất định
- Chọn
- gần gũi hơn
- đám mây
- mã
- Cột
- An ủi
- liên lạc
- Container
- chứa
- nội dung
- điều khiển
- chi phí-hiệu quả
- nước
- che
- tạo
- Tạo
- khách hàng
- khách hàng
- phân phối
- chứng minh
- Thiết kế
- Nhà phát triển
- khác nhau
- suốt trong
- Đào tạo
- nỗ lực
- các yếu tố
- loại bỏ
- ky sư
- Tiếng Anh
- đăng ký hạng mục thi
- Doanh nghiệp
- đặc biệt
- ví dụ
- hiện tại
- Kinh nghiệm
- Tên
- tiếp theo
- nước ngoài
- định dạng
- tìm thấy
- tương lai
- trò chơi
- tạo ra
- tốt
- tuyệt vời
- vui mừng
- giúp đỡ
- Độ đáng tin của
- HTTPS
- lớn
- Nhân loại
- ngành công nghiệp
- thông tin
- đầu vào
- Internet
- tương thích
- tham gia
- IT
- giữ
- kiến thức
- Ngôn ngữ
- Ngôn ngữ
- lớn
- học tập
- Tỉ lệ đòn bẩy
- Thư viện
- Danh sách
- địa phương
- LÀM CHO
- quản lý
- giám đốc
- nhãn hiệu
- thủ công
- lập bản đồ
- Trận đấu
- phù hợp
- có nghĩa
- đề cập
- Might
- tâm
- chi tiết
- Phim Điện Ảnh
- nhiều
- tên
- THÔNG TIN
- năm mới
- New Zealand
- tin tức
- bình thường
- Cung cấp
- Tùy chọn
- cơ quan
- Nền tảng khác
- một phần
- đam mê
- người
- máy nghe nhạc
- Podcast
- Phổ biến
- bài viết
- thực hành
- trình bày
- Hiệu trưởng
- quá trình
- Sản xuất
- Sản phẩm
- chuyên nghiệp
- cho
- cung cấp
- Xuất bản
- mục đích
- câu hỏi
- Nhanh chóng
- độc giả
- thời gian thực
- giới thiệu
- giảm
- đáng tin cậy
- kho
- đại diện
- đại diện cho
- khả năng mở rộng
- Quy mô
- Tìm kiếm
- an toàn
- chọn
- dịch vụ
- phiên
- định
- chia sẻ
- So
- rắn
- Giải pháp
- một số
- mã nguồn
- Loa
- đặc điểm kỹ thuật
- tiêu
- Tiêu chuẩn
- Trạng thái
- ở lại
- dòng
- hỗ trợ
- Hỗ trợ
- Hỗ trợ
- hệ thống
- nhóm
- công nghệ cao
- công nghiệp công nghệ
- Công nghệ
- Công nghệ
- thử nghiệm
- Kiểm tra
- The Washington Post
- Thông qua
- thời gian
- bây giờ
- hàng đầu
- Twitch
- sử dụng
- giá trị
- nhiều
- phiên bản
- Giọng nói
- VOICE
- khối lượng
- W3
- Washington
- Website
- liệu
- Wikipedia
- không có
- từ
- làm việc
- công trinh
- viết
- XML
- năm