مع استمرار تطور الذكاء الاصطناعي (AI)، كذلك تتطور قدراته نماذج اللغات الكبيرة (ماجستير في القانون). تستخدم هذه النماذج خوارزميات التعلم الآلي لفهم وتوليد اللغة البشرية، مما يسهل على البشر التفاعل مع الآلات. لقد اتخذت Microsoft Research Asia هذه التقنية خطوة أخرى إلى الأمام من خلال تقديم VisualGPT. يشتمل نموذج الذكاء الاصطناعي هذا على نماذج الأساس المرئي (VFM) لتعزيز فهم المعلومات المرئية وإنشائها وتحريرها.
اقرأ أيضا: Microsoft Power Platform مساعد الطيار: لا عصر تشفير قادم
ما هو VisualGPT؟
VisualGPT هو امتداد لـ شات جي بي تي. يستخدم ChatGPT معالجة اللغة الطبيعية تقنيات البرمجة اللغوية العصبية (NLP) لتوليد استجابات لمدخلات المستخدم. يأخذ VisualGPT هذه التقنية إلى المستوى التالي من خلال دمج المعلومات المرئية، مما يسمح للمستخدمين بالتواصل عبر الدردشة أثناء إنشاء الصور في نفس الوقت.
قوة نماذج الأساس البصري
في قلب VisualGPT توجد VFMs، وهي خوارزميات أساسية تستخدم في رؤية الكمبيوتر والتي تنقل مهارات رؤية الكمبيوتر القياسية إليها تطبيقات الذكاء الاصطناعي للتعامل مع المهام الأكثر تعقيدًا. يتكون مدير المطالبة في VisualGPT من 22 VFMs، بما في ذلك تحويل النص إلى صورة، وControlNet، وEdge-To-Image، وغيرها. يتيح ذلك لـ VisualGPT تحويل الإشارات المرئية من الصورة إلى تنسيق لغة لفهم أفضل.
تعد VFMs ضرورية لأنها توفر الأساس لقدرة VisualGPT على تجميع سجل الدردشة الداخلي الذي يتضمن معلومات مثل اسم ملف الصورة لفهم أفضل. على سبيل المثال، يعمل اسم الصورة التي أدخلها المستخدم كسجل للعملية، ويقوم مدير المطالبة بتوجيه النموذج من خلال "تنسيق السبب" لتحديد عملية VFM المناسبة. في جوهر الأمر، يمكن اعتبار ذلك الأفكار الداخلية للنموذج قبل تحديد عملية VFM الصحيحة.
اقرأ أيضا: ارفع مستوى سير عملك: Microsoft AI Copilot Boosts Office و GitHub و Bing والأمن السيبراني
بنية VisualGPT
تتضمن المكونات المعمارية لـ VisualGPT استعلام المستخدم، ومدير المطالبة، ونماذج الأساس المرئي، ومبدأ النظام، وتاريخ الحوار، وتاريخ الاستدلال، والإجابة المتوسطة. يعمل كل من هذه المكونات معًا بسلاسة لتوفير تجربة مستخدم سلسة.
استعلام المستخدم هو المكان الذي يرسل فيه المستخدم استعلامه. يقوم مدير المطالبة بعد ذلك بتحويل الاستعلامات المرئية للمستخدم إلى تنسيق لغة يفهمه VisualGPT. نماذج الأساس المرئي عبارة عن مزيج من VFMs المختلفة، مثل BLIP (التدريب المسبق على لغة Bootstrapping) وStable Diffusion وControlNet وPix2Pix والمزيد. يوفر مبدأ النظام القواعد والمتطلبات الأساسية لـ VisualGPT. يعد تاريخ الحوار بمثابة النقطة الأولية للتفاعل والمحادثة بين النظام والمستخدم. في حين أن تاريخ الاستدلال يستخدم الاستدلال السابق من VFMs المختلفة لحل الاستعلامات المعقدة. وفي الوقت نفسه، تنتج الإجابة المتوسطة العديد من الإجابات المتوسطة مع الفهم المنطقي باستخدام VFMs.
تقنية ثورية
يعد VisualGPT من Microsoft ابتكارًا استثنائيًا يدفع بحدود الاتصالات المدعومة بالذكاء الاصطناعي. تعد هذه التقنية الجديدة بفتح عالم من الإمكانيات لتجارب ذكاء اصطناعي أكثر جاذبية وديناميكية وتفاعلية من خلال سد الفجوة بين اللغة والمرئيات.
إحدى حالات الاستخدام المحتملة لـ VisualGPT هي في التجارة الإلكترونية. يمكن للمستخدمين تحميل صورة للمنتج الذي يرغبون في شرائه، ويمكن لـ VisualGPT إنشاء قائمة بالمنتجات المشابهة أو اقتراح عناصر تكميلية. هناك حالة استخدام محتملة أخرى في مجال الفن، حيث يمكن للمستخدمين إدخال وصف للعمل الفني الذي يريدون إنشاءه، ويمكن لـ VisualGPT إنشاء صورة بناءً على الوصف الخاص بهم.
قلنا
يعد VisualGPT أحدث خطوة من Microsoft وأكثرها ابتكارًا في تطوير الذكاء الاصطناعي. على الرغم من أنه لا يزال في مراحله الأولى من التطوير، إلا أن VisualGPT لديه القدرة على إحداث ثورة في كيفية تفاعلنا مع الآلات. مع استمرار تطور الذكاء الاصطناعي، يمكننا أن نتوقع رؤية المزيد من الابتكارات مثل VisualGPT التي تجمع بين أنواع مختلفة من البيانات لإنشاء تجارب مستخدم أكثر سهولة وجاذبية.
اقرأ أيضا: جوجل ضد مايكروسوفت: معركة ابتكار الذكاء الاصطناعي
مقالات ذات صلة
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://www.analyticsvidhya.com/blog/2023/04/microsoft-releases-visualgpt-combines-language-and-visuals/
- :يكون
- a
- القدرة
- AI
- AI-بالطاقة
- خوارزميات
- السماح
- من بين
- و
- آخر
- إجابة
- الأجوبة
- مناسب
- معماري
- هندسة معمارية
- هي
- فنـون
- مصطنع
- الذكاء الاصطناعي
- الذكاء الاصطناعي (منظمة العفو الدولية)
- العمل الفني
- AS
- آسيا
- على أساس
- الأساسية
- معركة
- BE
- لان
- قبل
- أفضل
- ما بين
- بنج
- الحدود
- سد
- by
- CAN
- قدرات
- حقيبة
- شات جي بي تي
- البرمجة
- مجموعة
- دمج
- يجمع بين
- تأتي
- التواصل
- Communication
- مكمل
- مجمع
- مكونات
- الكمبيوتر
- رؤية الكمبيوتر
- نظرت
- تواصل
- محادثة
- تحول
- خلق
- البيانات
- وصف
- حدد
- التطوير التجاري
- حوار
- مختلف
- التوزيع
- ديناميكي
- التجارة الإلكترونية
- كل
- في وقت مبكر
- أسهل
- تمكن
- جذاب
- عصر
- جوهر
- أساسي
- الأثير (ETH)
- يتطور
- توقع
- الخبره في مجال الغطس
- خبرة
- تمديد
- استثنائي
- حقل
- قم بتقديم
- في حالة
- شكل
- دورة تأسيسية
- تبدأ من
- أساسي
- إضافي
- فجوة
- توليد
- توليد
- جيل
- GitHub جيثب:
- دليل
- معالجة
- قلب
- تاريخ
- كيفية
- HTTPS
- الانسان
- البشر
- صورة
- صور
- in
- تتضمن
- يشمل
- بما فيه
- يدمج
- دمج
- معلومات
- في البداية
- الابتكار
- الابتكارات
- مبتكرة
- إدخال
- مثل
- رؤيتنا
- تفاعل
- تفاعل
- التفاعلية
- متوسط
- داخلي
- إدخال
- حدسي
- IT
- العناصر
- انها
- لغة
- آخر
- تعلم
- مستوى
- مثل
- قائمة
- منطقي
- الآلات
- القيام ب
- مدير
- في غضون
- مایکروسافت
- مايكروسوفت للبحوث
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- أكثر
- الاسم
- جديد
- التالي
- البرمجة اللغوية العصبية
- of
- Office
- on
- OpenAI
- عملية
- أخرى
- المنصة
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- إمكانيات
- محتمل
- قوة
- سابق
- مبدأ
- المنتج
- المنتجات
- وعود
- تزود
- ويوفر
- شراء
- الاستفسارات
- عرض
- الافراج عن
- صدر
- النشرات
- المتطلبات الأساسية
- بحث
- ثوري
- ثور
- القواعد
- بسلاسة
- اختيار
- يخدم
- عدة
- إشارات
- مماثل
- معا
- مهارات
- So
- حل
- مستقر
- مراحل
- معيار
- خطوة
- لا يزال
- هذه
- نظام
- يأخذ
- المهام
- تقنيات
- تكنولوجيا
- أن
- •
- من مشاركة
- تشبه
- عبر
- إلى
- سويا
- تحويل
- أنواع
- فهم
- فهم
- فهم
- فتح
- تستخدم
- حالة الاستخدام
- مستخدم
- تجربة المستخدم
- المستخدمين
- مختلف
- بواسطة
- رؤيتنا
- vs
- في حين
- مع
- سير العمل
- أعمال
- العالم
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت