Alibaba ra mắt mô hình AI hiểu hình ảnh và thực hiện các cuộc hội thoại phức tạp hơn

Được xuất bản lại bởi Plato

Người theo dõi: 0

Không gian trí tuệ nhân tạo (AI) đang nóng lên. Mới hôm qua, Naver của Hàn Quốc công bố ra mắt HyperClova X, một dịch vụ AI sáng tạo mới để cạnh tranh với ChatGPT. Giờ đây, gã khổng lồ internet của Trung Quốc đang tiết lộ hai mô hình AI nguồn mở có thể hiểu hình ảnh và thực hiện các cuộc hội thoại phức tạp hơn.

Vào thứ Sáu, Alibaba đã tiết lộ các mô hình AI mới được thiết kế để hiểu hình ảnh và tham gia vào các cuộc hội thoại phức tạp hơn so với các mô hình trước đây của họ. Bản phát hành này xuất hiện vào thời điểm cạnh tranh toàn cầu khốc liệt để giành vị trí dẫn đầu về công nghệ.

Cường quốc công nghệ Trung Quốc tuyên bố rằng hai mô hình mới của họ, được gọi là Qwen-VL và Qwen-VL-Chat, sẽ được cung cấp dưới dạng công cụ nguồn mở, nghĩa là các nhà nghiên cứu, nhà giáo dục và doanh nghiệp trên khắp thế giới có thể sử dụng các mô hình này để phát triển sở hữu các ứng dụng AI mà không cần đào tạo hệ thống riêng lẻ của họ. Cách làm này không chỉ tiết kiệm thời gian mà còn giảm chi phí đáng kể.

Tin tức này xuất hiện chỉ một tháng sau khi Alibaba ra mắt Tongyi Wanxiang, một công cụ tạo hình ảnh AI cạnh tranh với DALL-E & Midjourney của OpenAI. Tongyi Wanxiang, do bộ phận đám mây của Alibaba ra mắt, cho phép người dùng nhập lời nhắc văn bản bằng tiếng Trung hoặc tiếng Anh và công cụ AI tạo ra hình ảnh tương ứng theo nhiều phong cách khác nhau, chẳng hạn như phác họa hoặc phim hoạt hình 3D. Hiện tại, công cụ này chỉ có sẵn để thử nghiệm beta dành riêng cho khách hàng doanh nghiệp ở Trung Quốc.

Hai mô hình ngôn ngữ AI mới cũng được phát triển bởi đơn vị đám mây của công ty, Alibaba Cloud. Dựa theo báo cáo, gã khổng lồ công nghệ cho biết Qwen-VL được thiết kế để trở thành sự phát triển tiên tiến của mô hình 7 tỷ thông số của họ, Tongyi Qianwen. Mô hình động này thể hiện khả năng vượt trội trong việc xử lý dễ dàng cả hình ảnh và lời nhắc văn bản. Tính linh hoạt của nó mở rộng từ việc trả lời hiệu quả các câu hỏi có phạm vi rộng liên quan đến nhiều hình ảnh khác nhau cho đến việc tạo chú thích hấp dẫn cho những hình ảnh đó.

Alibaba cũng cho biết thêm Qwen-VL có thể thực hiện nhiều nhiệm vụ cùng lúc. Nó không chỉ có thể trả lời các câu hỏi mở liên quan đến nhiều hình ảnh khác nhau mà còn có thể tạo chú thích cho những bức ảnh đó.

Nhưng ngôi sao thực sự của chương trình là Qwen-VL-Chat. AI này xử lý các tương tác phức tạp hơn, như so sánh nhiều hình ảnh và xử lý các vòng đặt câu hỏi. Không dừng lại ở đó, Alibaba tự hào rằng họ có thể dựng nên những câu chuyện, gợi lên hình ảnh dựa trên ảnh do người dùng gửi và thậm chí giải các bài toán được trình bày bằng hình ảnh.

Một ví dụ thú vị mà họ đưa ra liên quan đến biển hiệu bệnh viện bằng tiếng Trung. Qwen-VL-Chat có thể giải mã nó và đưa ra thông tin sốt dẻo về vị trí của các khoa khác nhau trong bệnh viện.

Trong khi đó, phần lớn “thiên tài” AI hiện tại thường là về văn bản. Nhưng thời thế đang thay đổi. Qwen-VL-Chat và phiên bản mới nhất của ChatGPT của OpenAI đang làm mọi thứ rung chuyển, phản hồi hình ảnh bằng văn bản theo cách khá ấn tượng. Nó giống như AI đang học nói một ngôn ngữ hình ảnh mới!

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
ChartPrime. Nâng cao trò chơi giao dịch của bạn với ChartPrime. Truy cập Tại đây.
BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
nguồn: https://techstartups.com/2023/08/25/alibaba-launches-qwen-vl-and-qwen-vl-chat-ai-models-that-understand-images-and-have-more-complex-conversations/

Dấu thời gian: Tháng Tám 25, 2023

Dấu thời gian: Jan 19, 2023

Được xuất bản lại bởi Plato

DOJ kiện SpaceX của Elon Musk vì bị cáo buộc từ chối thuê người tị nạn và người xin tị nạn

Lucid mất 338,000 USD cho mỗi chiếc xe điện được bán khi cuộc chiến giá cả với Tesla ngày càng nóng lên – TechStartups

Nền tảng phi tập trung EarthFund ra mắt hệ thống “DAO-as-a-Service” để đơn giản hóa việc cấp vốn cho các nguyên nhân thay đổi thế giới

Sweet Security tăng 12 triệu đô la tài trợ hạt giống để cung cấp bộ bảo mật dựa trên đám mây theo thời gian thực cho các doanh nghiệp

Xsolla công bố cơ cấu lãnh đạo mới cho giai đoạn đổi mới và tăng trưởng chiến lược tiếp theo cho ngành trò chơi điện tử – TechStartups

Giờ đây, bạn có thể thuê một người kỹ thuật số cho công ty của mình với mức giá chỉ 14,000 đô la một năm

tomi nhận được khoản tài trợ 40 triệu đô la để xây dựng một mạng internet thay thế không bị giám sát do cộng đồng kiểm soát

CoinDesk đang khám phá việc bán chính nó khi khủng hoảng ngày càng sâu sắc tại công ty mẹ DCG do sự lây lan của FTX

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản