Alibaba ra mắt mô hình AI hiểu hình ảnh và thực hiện các cuộc hội thoại phức tạp hơn

Alibaba ra mắt mô hình AI hiểu hình ảnh và thực hiện các cuộc hội thoại phức tạp hơn

Nút nguồn: 2236439

Không gian trí tuệ nhân tạo (AI) đang nóng lên. Mới hôm qua, Naver của Hàn Quốc công bố ra mắt HyperClova X, một dịch vụ AI sáng tạo mới để cạnh tranh với ChatGPT. Giờ đây, gã khổng lồ internet của Trung Quốc đang tiết lộ hai mô hình AI nguồn mở có thể hiểu hình ảnh và thực hiện các cuộc hội thoại phức tạp hơn.

Vào thứ Sáu, Alibaba đã tiết lộ các mô hình AI mới được thiết kế để hiểu hình ảnh và tham gia vào các cuộc hội thoại phức tạp hơn so với các mô hình trước đây của họ. Bản phát hành này xuất hiện vào thời điểm cạnh tranh toàn cầu khốc liệt để giành vị trí dẫn đầu về công nghệ.

Cường quốc công nghệ Trung Quốc tuyên bố rằng hai mô hình mới của họ, được gọi là Qwen-VL và Qwen-VL-Chat, sẽ được cung cấp dưới dạng công cụ nguồn mở, nghĩa là các nhà nghiên cứu, nhà giáo dục và doanh nghiệp trên khắp thế giới có thể sử dụng các mô hình này để phát triển sở hữu các ứng dụng AI mà không cần đào tạo hệ thống riêng lẻ của họ. Cách làm này không chỉ tiết kiệm thời gian mà còn giảm chi phí đáng kể.

Tin tức này xuất hiện chỉ một tháng sau khi Alibaba ra mắt Tongyi Wanxiang, một công cụ tạo hình ảnh AI cạnh tranh với DALL-E & Midjourney của OpenAI. Tongyi Wanxiang, do bộ phận đám mây của Alibaba ra mắt, cho phép người dùng nhập lời nhắc văn bản bằng tiếng Trung hoặc tiếng Anh và công cụ AI tạo ra hình ảnh tương ứng theo nhiều phong cách khác nhau, chẳng hạn như phác họa hoặc phim hoạt hình 3D. Hiện tại, công cụ này chỉ có sẵn để thử nghiệm beta dành riêng cho khách hàng doanh nghiệp ở Trung Quốc.

Hai mô hình ngôn ngữ AI mới cũng được phát triển bởi đơn vị đám mây của công ty, Alibaba Cloud. Dựa theo báo cáo, gã khổng lồ công nghệ cho biết Qwen-VL được thiết kế để trở thành sự phát triển tiên tiến của mô hình 7 tỷ thông số của họ, Tongyi Qianwen. Mô hình động này thể hiện khả năng vượt trội trong việc xử lý dễ dàng cả hình ảnh và lời nhắc văn bản. Tính linh hoạt của nó mở rộng từ việc trả lời hiệu quả các câu hỏi có phạm vi rộng liên quan đến nhiều hình ảnh khác nhau cho đến việc tạo chú thích hấp dẫn cho những hình ảnh đó.

Alibaba cũng cho biết thêm Qwen-VL có thể thực hiện nhiều nhiệm vụ cùng lúc. Nó không chỉ có thể trả lời các câu hỏi mở liên quan đến nhiều hình ảnh khác nhau mà còn có thể tạo chú thích cho những bức ảnh đó.

Nhưng ngôi sao thực sự của chương trình là Qwen-VL-Chat. AI này xử lý các tương tác phức tạp hơn, như so sánh nhiều hình ảnh và xử lý các vòng đặt câu hỏi. Không dừng lại ở đó, Alibaba tự hào rằng họ có thể dựng nên những câu chuyện, gợi lên hình ảnh dựa trên ảnh do người dùng gửi và thậm chí giải các bài toán được trình bày bằng hình ảnh.

Một ví dụ thú vị mà họ đưa ra liên quan đến biển hiệu bệnh viện bằng tiếng Trung. Qwen-VL-Chat có thể giải mã nó và đưa ra thông tin sốt dẻo về vị trí của các khoa khác nhau trong bệnh viện.

Trong khi đó, phần lớn “thiên tài” AI hiện tại thường là về văn bản. Nhưng thời thế đang thay đổi. Qwen-VL-Chat và phiên bản mới nhất của ChatGPT của OpenAI đang làm mọi thứ rung chuyển, phản hồi hình ảnh bằng văn bản theo cách khá ấn tượng. Nó giống như AI đang học nói một ngôn ngữ hình ảnh mới!


Dấu thời gian:

Thêm từ khởi nghiệp công nghệ