Ngữ văn thúc đẩy quá trình nhận dạng tiếng Anh có trọng âm

Nút nguồn: 1270044

Tính năng nhận dạng giọng nói đã trở nên tiện lợi trở nên quan trọng trong vài năm qua khi loa thông minh và các chế độ hỗ trợ lái xe phát triển — nhưng không phải giọng nói của mọi người đều được nhận dạng tốt như nhau. Speechmatics tuyên bố có mô hình toàn diện và chính xác nhất hiện có, đánh bại Amazon, Google và những người khác khi nói đến giọng nói bên ngoài giọng Mỹ phổ biến nhất.

Công ty giải thích rằng nó đã được hướng dẫn về câu hỏi về độ chính xác bởi một Nghiên cứu của Stanford năm 2019 có tựa đề “Sự khác biệt về chủng tộc đối với khả năng nhận dạng giọng nói,” đã tìm thấy chính xác điều đó. Các công cụ phát biểu của Amazon, Apple, Google, IBM và Microsoft “đã thể hiện sự khác biệt đáng kể về chủng tộc, với tỷ lệ lỗi từ trung bình (WER) là 0.35 đối với người nói màu đen so với 0.19 đối với người nói màu trắng.” Không tốt!

Nguồn gốc của sự chênh lệch này có thể một phần là do sự thiếu đa dạng trong các bộ dữ liệu được sử dụng để đào tạo các hệ thống này. Xét cho cùng, nếu có ít người nói màu đen trong dữ liệu, thì mô hình cũng sẽ không học những mẫu giọng nói đó. Điều tương tự cũng có thể xảy ra đối với những người nói có giọng, phương ngữ khác, v.v. - Mỹ (chưa nói đến Vương quốc Anh) có rất nhiều giọng và bất kỳ công ty nào tuyên bố cung cấp dịch vụ cho “mọi người” đều nên biết điều đó.

Dù sao đi nữa, Speechmatics có trụ sở tại Vương quốc Anh đã ưu tiên độ chính xác trong việc phiên âm tiếng Anh có trọng âm cho mẫu máy mới nhất của mình và hãng này tuyên bố đã vượt mặt các hãng khác. Dựa trên cùng một bộ dữ liệu được sử dụng trong nghiên cứu của Stanford (nhưng sử dụng các phiên bản mới nhất của phần mềm giọng nói), “Speechmatics đã ghi lại độ chính xác tổng thể là 82.8% cho giọng nói của người Mỹ gốc Phi so với Google (68.7%) và Amazon (68.6%),” công ty đã viết trong thông cáo báo chí của mình.

Công ty cho rằng thành công này là nhờ một cách tiếp cận tương đối mới để tạo ra một mô hình nhận dạng giọng nói. Theo truyền thống, hệ thống máy học được cung cấp dữ liệu được gắn nhãn — ví dụ như một tệp âm thanh lời nói có siêu dữ liệu đi kèm hoặc tệp văn bản chứa nội dung đang được nói, thường được con người phiên âm và kiểm tra. Đối với thuật toán phát hiện mèo, bạn sẽ có hình ảnh và dữ liệu cho biết bức ảnh nào có mèo, vị trí của con mèo trong mỗi bức ảnh, v.v. Đây là giám sát học, trong đó một mô hình học các mối tương quan giữa hai dạng dữ liệu đã chuẩn bị.

cách nói được sử dụng tự giám sát học tập, một phương pháp đã đạt được thành công trong những năm gần đây khi bộ dữ liệu, hiệu quả học tập và sức mạnh tính toán đã tăng lên. Ngoài dữ liệu được gắn nhãn, nó còn sử dụng dữ liệu thô, chưa được gắn nhãn và nhiều dữ liệu khác, xây dựng khả năng “hiểu” lời nói của riêng mình với ít hướng dẫn hơn.

Trong trường hợp này, mô hình dựa trên khoảng 30,000 giờ dữ liệu được gắn nhãn để có được mức độ hiểu biết cơ bản, sau đó được cung cấp 1.1 triệu giờ âm thanh có sẵn công khai lấy từ YouTube, podcast và nội dung khác. Loại bộ sưu tập này có một chút vùng xám, vì không ai đồng ý rõ ràng về việc sử dụng podcast của họ để đào tạo công cụ nhận dạng giọng nói thương mại của ai đó. Nhưng nó đang được nhiều người sử dụng theo cách đó, giống như “toàn bộ internet” đã được sử dụng để đào tạo GPT-3 của OpenAI, có thể bao gồm hàng nghìn bài báo của riêng tôi. (Mặc dù nó vẫn chưa làm chủ được giọng nói độc đáo của tôi.)

Ngoài việc cải thiện độ chính xác cho những người nói tiếng Mỹ da đen, mô hình Speechmatics còn tuyên bố phiên âm tốt hơn cho trẻ em (chính xác khoảng 92% so với khoảng 83% trong Google và Deepgram) và những cải tiến nhỏ nhưng đáng kể trong tiếng Anh với giọng từ khắp nơi trên thế giới: Ấn Độ, Philippines, Nam Phi và nhiều người khác - thậm chí cả người Scotland.

Họ hỗ trợ hàng tá ngôn ngữ khác và cũng có khả năng cạnh tranh ở nhiều ngôn ngữ trong số đó; đây không chỉ là một mô hình nhận dạng tiếng Anh, mà còn được sử dụng như một ngôn ngữ lingua franca (một thành ngữ vui nhộn ngày nay), trọng âm đặc biệt quan trọng đối với nó.

Speechmatics có thể dẫn đầu về số liệu mà nó trích dẫn, nhưng thế giới AI đang chuyển động với tốc độ cực nhanh và tôi sẽ không ngạc nhiên nếu thấy bước nhảy vọt tiếp theo trong năm tới. Chẳng hạn, Google đang nỗ lực hết mình để đảm bảo các công cụ của họ hoạt động cho những người khiếm thị. Sự hòa nhập là một phần quan trọng trong mọi công việc của AI ngày nay và thật tốt khi thấy các công ty đang cố gắng vượt qua nhau trong lĩnh vực này.

Nguồn: https://techcrunch.com/2021/10/26/speechmatics-pushes-forward-recognition-of-accented-english/

Dấu thời gian:

Thêm từ Techcrunch