إصدارات Microsoft VisualGPT: يجمع بين اللغة والمرئيات

إصدارات Microsoft VisualGPT: يجمع بين اللغة والمرئيات

عقدة المصدر: 2058575

مع استمرار تطور الذكاء الاصطناعي (AI)، كذلك تتطور قدراته نماذج اللغات الكبيرة (ماجستير في القانون). تستخدم هذه النماذج خوارزميات التعلم الآلي لفهم وتوليد اللغة البشرية، مما يسهل على البشر التفاعل مع الآلات. لقد اتخذت Microsoft Research Asia هذه التقنية خطوة أخرى إلى الأمام من خلال تقديم VisualGPT. يشتمل نموذج الذكاء الاصطناعي هذا على نماذج الأساس المرئي (VFM) لتعزيز فهم المعلومات المرئية وإنشائها وتحريرها.

تجتمع Microsoft وOpenAI معًا لإصدار VisualGPT.

اقرأ أيضا: Microsoft Power Platform مساعد الطيار: لا عصر تشفير قادم

ما هو VisualGPT؟

VisualGPT هو امتداد لـ شات جي بي تي. يستخدم ChatGPT معالجة اللغة الطبيعية تقنيات البرمجة اللغوية العصبية (NLP) لتوليد استجابات لمدخلات المستخدم. يأخذ VisualGPT هذه التقنية إلى المستوى التالي من خلال دمج المعلومات المرئية، مما يسمح للمستخدمين بالتواصل عبر الدردشة أثناء إنشاء الصور في نفس الوقت.

قوة نماذج الأساس البصري

في قلب VisualGPT توجد VFMs، وهي خوارزميات أساسية تستخدم في رؤية الكمبيوتر والتي تنقل مهارات رؤية الكمبيوتر القياسية إليها تطبيقات الذكاء الاصطناعي للتعامل مع المهام الأكثر تعقيدًا. يتكون مدير المطالبة في VisualGPT من 22 VFMs، بما في ذلك تحويل النص إلى صورة، وControlNet، وEdge-To-Image، وغيرها. يتيح ذلك لـ VisualGPT تحويل الإشارات المرئية من الصورة إلى تنسيق لغة لفهم أفضل.

يستخدم VisualGPT نماذج الأساس المرئي (VFM) لفهم المعلومات المرئية وإنشائها وتحريرها.

تعد VFMs ضرورية لأنها توفر الأساس لقدرة VisualGPT على تجميع سجل الدردشة الداخلي الذي يتضمن معلومات مثل اسم ملف الصورة لفهم أفضل. على سبيل المثال، يعمل اسم الصورة التي أدخلها المستخدم كسجل للعملية، ويقوم مدير المطالبة بتوجيه النموذج من خلال "تنسيق السبب" لتحديد عملية VFM المناسبة. في جوهر الأمر، يمكن اعتبار ذلك الأفكار الداخلية للنموذج قبل تحديد عملية VFM الصحيحة.

اقرأ أيضا: ارفع مستوى سير عملك: Microsoft AI Copilot Boosts Office و GitHub و Bing والأمن السيبراني

بنية VisualGPT

تتضمن المكونات المعمارية لـ VisualGPT استعلام المستخدم، ومدير المطالبة، ونماذج الأساس المرئي، ومبدأ النظام، وتاريخ الحوار، وتاريخ الاستدلال، والإجابة المتوسطة. يعمل كل من هذه المكونات معًا بسلاسة لتوفير تجربة مستخدم سلسة.

استعلام المستخدم هو المكان الذي يرسل فيه المستخدم استعلامه. يقوم مدير المطالبة بعد ذلك بتحويل الاستعلامات المرئية للمستخدم إلى تنسيق لغة يفهمه VisualGPT. نماذج الأساس المرئي عبارة عن مزيج من VFMs المختلفة، مثل BLIP (التدريب المسبق على لغة Bootstrapping) وStable Diffusion وControlNet وPix2Pix والمزيد. يوفر مبدأ النظام القواعد والمتطلبات الأساسية لـ VisualGPT. يعد تاريخ الحوار بمثابة النقطة الأولية للتفاعل والمحادثة بين النظام والمستخدم. في حين أن تاريخ الاستدلال يستخدم الاستدلال السابق من VFMs المختلفة لحل الاستعلامات المعقدة. وفي الوقت نفسه، تنتج الإجابة المتوسطة العديد من الإجابات المتوسطة مع الفهم المنطقي باستخدام VFMs.

أصدرت Microsoft Visual ChatGPT، وهو نموذج للذكاء الاصطناعي يعتمد على نماذج الأساس المرئي (VFM) التي يمكنها فهم المعلومات المرئية وإنشائها وتحريرها.

تقنية ثورية

يعد VisualGPT من Microsoft ابتكارًا استثنائيًا يدفع بحدود الاتصالات المدعومة بالذكاء الاصطناعي. تعد هذه التقنية الجديدة بفتح عالم من الإمكانيات لتجارب ذكاء اصطناعي أكثر جاذبية وديناميكية وتفاعلية من خلال سد الفجوة بين اللغة والمرئيات.

إحدى حالات الاستخدام المحتملة لـ VisualGPT هي في التجارة الإلكترونية. يمكن للمستخدمين تحميل صورة للمنتج الذي يرغبون في شرائه، ويمكن لـ VisualGPT إنشاء قائمة بالمنتجات المشابهة أو اقتراح عناصر تكميلية. هناك حالة استخدام محتملة أخرى في مجال الفن، حيث يمكن للمستخدمين إدخال وصف للعمل الفني الذي يريدون إنشاءه، ويمكن لـ VisualGPT إنشاء صورة بناءً على الوصف الخاص بهم.

قلنا

يعد VisualGPT أحدث خطوة من Microsoft وأكثرها ابتكارًا في تطوير الذكاء الاصطناعي. على الرغم من أنه لا يزال في مراحله الأولى من التطوير، إلا أن VisualGPT لديه القدرة على إحداث ثورة في كيفية تفاعلنا مع الآلات. مع استمرار تطور الذكاء الاصطناعي، يمكننا أن نتوقع رؤية المزيد من الابتكارات مثل VisualGPT التي تجمع بين أنواع مختلفة من البيانات لإنشاء تجارب مستخدم أكثر سهولة وجاذبية.

اقرأ أيضا: جوجل ضد مايكروسوفت: معركة ابتكار الذكاء الاصطناعي

الطابع الزمني:

اكثر من تحليلات Vidhya