تطلق Microsoft VisualGPT: يجمع بين اللغة والمرئيات

أعاد نشره أفلاطون

المتابعون: 0

مع استمرار تطور الذكاء الاصطناعي (AI)، كذلك تتطور قدراته نماذج اللغات الكبيرة (ماجستير في القانون). تستخدم هذه النماذج خوارزميات التعلم الآلي لفهم وتوليد اللغة البشرية، مما يسهل على البشر التفاعل مع الآلات. لقد اتخذت Microsoft Research Asia هذه التقنية خطوة أخرى إلى الأمام من خلال تقديم VisualGPT. يشتمل نموذج الذكاء الاصطناعي هذا على نماذج الأساس المرئي (VFM) لتعزيز فهم المعلومات المرئية وإنشائها وتحريرها.

تجتمع Microsoft وOpenAI معًا لإصدار VisualGPT.

ما هو VisualGPT؟

VisualGPT هو امتداد لـ شات جي بي تي. يستخدم ChatGPT معالجة اللغة الطبيعية تقنيات البرمجة اللغوية العصبية (NLP) لتوليد استجابات لمدخلات المستخدم. يأخذ VisualGPT هذه التقنية إلى المستوى التالي من خلال دمج المعلومات المرئية، مما يسمح للمستخدمين بالتواصل عبر الدردشة أثناء إنشاء الصور في نفس الوقت.

قوة نماذج الأساس البصري

في قلب VisualGPT توجد VFMs، وهي خوارزميات أساسية تستخدم في رؤية الكمبيوتر والتي تنقل مهارات رؤية الكمبيوتر القياسية إليها تطبيقات الذكاء الاصطناعي للتعامل مع المهام الأكثر تعقيدًا. يتكون مدير المطالبة في VisualGPT من 22 VFMs، بما في ذلك تحويل النص إلى صورة، وControlNet، وEdge-To-Image، وغيرها. يتيح ذلك لـ VisualGPT تحويل الإشارات المرئية من الصورة إلى تنسيق لغة لفهم أفضل.

يستخدم VisualGPT نماذج الأساس المرئي (VFM) لفهم المعلومات المرئية وإنشائها وتحريرها.

تعد VFMs ضرورية لأنها توفر الأساس لقدرة VisualGPT على تجميع سجل الدردشة الداخلي الذي يتضمن معلومات مثل اسم ملف الصورة لفهم أفضل. على سبيل المثال، يعمل اسم الصورة التي أدخلها المستخدم كسجل للعملية، ويقوم مدير المطالبة بتوجيه النموذج من خلال "تنسيق السبب" لتحديد عملية VFM المناسبة. في جوهر الأمر، يمكن اعتبار ذلك الأفكار الداخلية للنموذج قبل تحديد عملية VFM الصحيحة.

بنية VisualGPT

تتضمن المكونات المعمارية لـ VisualGPT استعلام المستخدم، ومدير المطالبة، ونماذج الأساس المرئي، ومبدأ النظام، وتاريخ الحوار، وتاريخ الاستدلال، والإجابة المتوسطة. يعمل كل من هذه المكونات معًا بسلاسة لتوفير تجربة مستخدم سلسة.

استعلام المستخدم هو المكان الذي يرسل فيه المستخدم استعلامه. يقوم مدير المطالبة بعد ذلك بتحويل الاستعلامات المرئية للمستخدم إلى تنسيق لغة يفهمه VisualGPT. نماذج الأساس المرئي عبارة عن مزيج من VFMs المختلفة، مثل BLIP (التدريب المسبق على لغة Bootstrapping) وStable Diffusion وControlNet وPix2Pix والمزيد. يوفر مبدأ النظام القواعد والمتطلبات الأساسية لـ VisualGPT. يعد تاريخ الحوار بمثابة النقطة الأولية للتفاعل والمحادثة بين النظام والمستخدم. في حين أن تاريخ الاستدلال يستخدم الاستدلال السابق من VFMs المختلفة لحل الاستعلامات المعقدة. وفي الوقت نفسه، تنتج الإجابة المتوسطة العديد من الإجابات المتوسطة مع الفهم المنطقي باستخدام VFMs.

أصدرت Microsoft Visual ChatGPT، وهو نموذج للذكاء الاصطناعي يعتمد على نماذج الأساس المرئي (VFM) التي يمكنها فهم المعلومات المرئية وإنشائها وتحريرها.

تقنية ثورية

يعد VisualGPT من Microsoft ابتكارًا استثنائيًا يدفع بحدود الاتصالات المدعومة بالذكاء الاصطناعي. تعد هذه التقنية الجديدة بفتح عالم من الإمكانيات لتجارب ذكاء اصطناعي أكثر جاذبية وديناميكية وتفاعلية من خلال سد الفجوة بين اللغة والمرئيات.

إحدى حالات الاستخدام المحتملة لـ VisualGPT هي في التجارة الإلكترونية. يمكن للمستخدمين تحميل صورة للمنتج الذي يرغبون في شرائه، ويمكن لـ VisualGPT إنشاء قائمة بالمنتجات المشابهة أو اقتراح عناصر تكميلية. هناك حالة استخدام محتملة أخرى في مجال الفن، حيث يمكن للمستخدمين إدخال وصف للعمل الفني الذي يريدون إنشاءه، ويمكن لـ VisualGPT إنشاء صورة بناءً على الوصف الخاص بهم.

قلنا

يعد VisualGPT أحدث خطوة من Microsoft وأكثرها ابتكارًا في تطوير الذكاء الاصطناعي. على الرغم من أنه لا يزال في مراحله الأولى من التطوير، إلا أن VisualGPT لديه القدرة على إحداث ثورة في كيفية تفاعلنا مع الآلات. مع استمرار تطور الذكاء الاصطناعي، يمكننا أن نتوقع رؤية المزيد من الابتكارات مثل VisualGPT التي تجمع بين أنواع مختلفة من البيانات لإنشاء تجارب مستخدم أكثر سهولة وجاذبية.

الطابع الزمني: أبريل 12، 2024

مقدمة إلى Softmax للشبكة العصبية

الكتلة المصدر:

تحليلات Vidhya

عقدة المصدر: 802627

الطابع الزمني: أبريل 5، 2021

استكشاف الالتواء النقطي في شبكات CNN: استبدال الطبقات المتصلة بالكامل

الكتلة المصدر:

تحليلات Vidhya

عقدة المصدر: 2397116

الطابع الزمني: نوفمبر 24، 2023

البرمجة في R - من المتغيرات إلى التصورات

الكتلة المصدر:

تحليلات Vidhya

عقدة المصدر: 1075636

الطابع الزمني: سبتمبر 14، 2021

إصدارات Microsoft VisualGPT: يجمع بين اللغة والمرئيات

أعاد نشره أفلاطون

ما هو VisualGPT؟

قوة نماذج الأساس البصري

بنية VisualGPT

تقنية ثورية

قلنا

مقالات ذات صلة

اكثر من تحليلات Vidhya

يمكن لقبعة الذكاء الاصطناعي القابلة للارتداء أن تقرأ أفكارك وتكتبها بدقة

كيفية تنفيذ التحقق من الهوية باستخدام Amazon Rekognition

8 مهارات يجب أن تمتلكها لتصبح مهندس ذكاء اصطناعي في عام 2024

دليل التعامل مع الملفات في بايثون [موضح بالأمثلة]

يجب قراءة أفضل 9 أسئلة مقابلة الربيع التمهيد

Meta Tests AI Chatbot "Meta AI" مع مستخدمي WhatsApp وInstagram في الهند

مقدمة إلى Softmax للشبكة العصبية

البرمجة في R - من المتغيرات إلى التصورات

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي