Các nhà nghiên cứu meta xây dựng một AI học tốt như nhau từ các tài liệu trực quan, viết hoặc nói

Nút nguồn: 1590449

Những tiến bộ trong lĩnh vực AI liên tục xuất hiện, nhưng chúng có xu hướng bị giới hạn trong một lĩnh vực duy nhất: Ví dụ: một phương pháp mới tuyệt vời để tạo ra lời nói tổng hợp không phải là Ngoài ra một cách để nhận ra biểu cảm trên khuôn mặt con người. Các nhà nghiên cứu của Meta (AKA Facebook) đang nghiên cứu một thứ gì đó linh hoạt hơn một chút: một AI có thể tự học một cách có khả năng cho dù nó làm như vậy trong các tài liệu nói, viết hay hình ảnh.

Cách truyền thống để huấn luyện một mô hình AI diễn giải chính xác điều gì đó là cung cấp cho nó rất nhiều (như hàng triệu) ví dụ được dán nhãn. Một bức tranh về một con mèo với phần con mèo được dán nhãn, một cuộc trò chuyện với người nói và các từ được phiên âm, v.v. Nhưng cách tiếp cận đó không còn thịnh hành nữa vì các nhà nghiên cứu nhận thấy rằng việc tạo cơ sở dữ liệu theo cách thủ công có kích thước cần thiết để huấn luyện tiếp theo là không khả thi. -gen AI. Ai muốn dán hình mèo 50 triệu nào? Được rồi, có lẽ một vài người - nhưng ai muốn dán nhãn cho 50 triệu bức ảnh về các loại trái cây và rau quả phổ biến?

Hiện tại, một số hệ thống AI hứa hẹn nhất được gọi là tự giám sát: các mô hình có thể hoạt động từ số lượng lớn dữ liệu chưa được gắn nhãn, như sách hoặc video về những người tương tác và xây dựng hiểu biết có cấu trúc của riêng chúng về các quy tắc của hệ thống. Chẳng hạn, bằng cách đọc một nghìn cuốn sách, nó sẽ học được vị trí tương đối của các từ và ý tưởng về cấu trúc ngữ pháp mà không cần ai nói cho nó biết đối tượng, mạo từ hay dấu phẩy là gì — nó có được điều đó bằng cách rút ra các suy luận từ rất nhiều ví dụ.

Về mặt trực giác, điều này giống với cách mọi người học hơn, đó là một phần lý do tại sao các nhà nghiên cứu thích nó. Nhưng các mô hình vẫn có xu hướng đơn phương thức và tất cả công việc bạn làm để thiết lập hệ thống học bán giám sát để nhận dạng giọng nói sẽ không áp dụng chút nào cho phân tích hình ảnh — đơn giản là chúng quá khác nhau. Đó là nơi nghiên cứu mới nhất của Facebook/Meta, cái tên hấp dẫn data2vec, vào đi.

Ý tưởng cho data2vec là xây dựng một khung AI sẽ học theo cách trừu tượng hơn, nghĩa là bắt đầu từ đầu, bạn có thể đưa cho nó sách để đọc hoặc hình ảnh để quét hoặc giọng nói để phát ra âm thanh và sau một thời gian đào tạo, nó sẽ học bất cứ thứ gì trong số đó. Nó giống như bắt đầu với một hạt giống duy nhất, nhưng tùy thuộc vào loại thức ăn thực vật mà bạn cung cấp cho nó, nó sẽ phát triển thành hoa thủy tiên vàng, pansy hoặc hoa tulip.

Thử nghiệm data2vec sau khi cho phép nó đào tạo trên nhiều kho dữ liệu khác nhau cho thấy rằng nó có khả năng cạnh tranh và thậm chí vượt trội so với các mô hình chuyên dụng có kích thước tương tự cho phương thức đó. (Nghĩa là, nếu tất cả các mô hình đều bị giới hạn ở mức 100 megabyte, thì data2vec đã làm tốt hơn — các mô hình chuyên dụng có thể vẫn hoạt động tốt hơn khi chúng phát triển.)

“Ý tưởng cốt lõi của phương pháp này là học hỏi một cách tổng quát hơn: AI sẽ có thể học cách thực hiện nhiều nhiệm vụ khác nhau, bao gồm cả những nhiệm vụ hoàn toàn xa lạ,” đã viết nhóm trong một bài đăng trên blog. “Chúng tôi cũng hy vọng data2vec sẽ đưa chúng ta đến gần hơn với một thế giới nơi máy tính cần rất ít dữ liệu được dán nhãn để hoàn thành nhiệm vụ.”

“Mọi người trải nghiệm thế giới thông qua sự kết hợp của hình ảnh, âm thanh và lời nói, và những hệ thống như thế này một ngày nào đó có thể hiểu thế giới theo cách của chúng ta,” CEO Mark Zuckerberg nhận xét về nghiên cứu.

Đây vẫn là nghiên cứu ở giai đoạn đầu, vì vậy đừng mong đợi “AI nói chung” huyền thoại sẽ đột ngột xuất hiện — nhưng có một AI có cấu trúc học tổng quát hoạt động với nhiều miền và loại dữ liệu có vẻ tốt hơn, giải pháp tao nhã hơn so với tập hợp các trí thông minh vi mô bị phân mảnh mà chúng ta có được ngày nay.

Mã cho data2vec là mã nguồn mở; nó và một số mô hình được đào tạo trước có sẵn tại đây.

Nguồn: https://techcrunch.com/2022/01/20/meta-researchers-build-an-ai-that-learns-equally-well-from-visual-write-or-spoken-materials/

Dấu thời gian:

Thêm từ Techcrunch