هوش مصنوعی تولیدی و انطباق معنایی - DATAVERSITY

گره منبع: 2171195

فقط CPT و همتایانش می‌دانند که بر اساس نتایج حاصل از هوش مصنوعی مولد، چه تعداد بیانیه داده شده است. اما تعداد زیادی از آنها وجود دارد.

پیشینه من به عنوان یک مدل ساز داده در طول سالیان متمادی باعث می‌شود کمی بلرزم، زیرا آنچه که کمک‌های هوش مصنوعی دوستانه به ما کمک می‌کنند، تحت فرآیندهای شناختی قرار می‌گیرند، جایی که ما، خوانندگان، ورودی‌ها، نتایج هوش مصنوعی را با توجه به معناشناسی درک شده (توسط خودمان) پردازش می‌کنیم. دانشی که هر یک از ما در طول زمان ساخته ایم. و ما انتظار داریم که نتایج هوش مصنوعی از الگوهای مشابه (یعنی متناظر) پیروی کند. 

به عبارت دیگر، من انتظار دارم «ChatSome» به طور ضمنی با معنایی خاص که در مجموعه‌های آموزشی تعبیه شده است، مطابقت داشته باشد:

نمودار ساخته شده از طریق WebWOWL - برای خواندن نمودار به آنجا بروید

شبکه معنایی در مثال بالا، هستی شناسی معروف FOAF (Friend of a Friend) است که از جامعه جهانی وب بیرون آمده است. بنابراین، اگر ChatSome در مورد مسائل مربوط به دوستان بحث کند، طبیعی به نظر می رسد که ساختارهای معنایی چندان متفاوت از استاندارد فوق (FOAF) نباشد.

معناشناسی مشترک یک ضرورت در ارتباطات انسانی است.

مهندسی سریع برای نجات؟

به نظر می رسد که در حال حاضر، پاسخ بازاریابان هوش مصنوعی، دقیق، نظارت شده، "مهندسی سریع" است - زیرا اگر نمی توانید آنچه را که در مورد آن می پرسید تعریف کنید، هر هوش مصنوعی (یا انسانی) چگونه باید بتواند هوشمندانه پاسخ دهد؟

به عنوان مثال، این مقاله عالی اخیر از هاروارد بیزینس ریویو توسط Oguz A. Acar را ببینید.مهندسی سریع هوش مصنوعی آینده نیست"

من شما را به خواندن مقاله تشویق می کنم، اما در این استناد به اصل آن پی خواهید برد: 

با این حال، علیرغم سر و صدایی که پیرامون آن وجود دارد، اهمیت مهندسی سریع ممکن است به دلایل مختلفی زودگذر باشد. اول، نسل‌های آینده سیستم‌های هوش مصنوعی در درک زبان طبیعی مهارت بیشتری پیدا می‌کنند و نیاز به اعلان‌های دقیق مهندسی شده را کاهش می‌دهند. دوم، مدل‌های جدید زبان هوش مصنوعی مانند GPT4 در حال حاضر نویدهای زیادی را در ساخت اعلان‌ها نشان می‌دهند – هوش مصنوعی خود در آستانه منسوخ شدن مهندسی سریع است. در نهایت، اثربخشی دستورات منوط به الگوریتم خاص است و کاربرد آنها را در مدل‌ها و نسخه‌های مختلف هوش مصنوعی محدود می‌کند.

بنابراین، چه مهارتی پایدارتر و سازگارتر است که ما را قادر می سازد تا از پتانسیل هوش مصنوعی مولد استفاده کنیم؟ این است فرمول مسأله - توانایی شناسایی، تجزیه و تحلیل و ترسیم مشکلات.

من خیلی با آن موافقم. این بدان معنی است که کار بیشتری برای انجام دادن وجود دارد. در واقع، به نظر من آنچه از خوش بین ترین و امیدوارترین سازندگان بازار هوش مصنوعی می شنویم با این نقل قول معروف (ادعای) نویسنده سوئدی آسترید لیندگرن، که ظاهراً به شخصیت اصلی خود، پیپی اجازه می دهد، می شنویم. جوراب بلند می گوید: "من قبلا هرگز آن را امتحان نکرده ام، بنابراین فکر می کنم قطعا باید بتوانم این کار را انجام دهم."

در اینجا جلد کتابی از دنیای جوراب بلند پیپی آمده است:

منبع تصویر: راکوتن کوبو

هیچ چیز برای پیپی خیلی سخت نبود، حتی بلند کردن اسبش! حداقل 14 کتاب و تعدادی فیلم مستند این موضوع هستند. بچه ها و والدینشان تا بزرگسالی مجذوب این داستان ها می شوند. چرا این من را به یاد برخی از روایت‌هایی می‌اندازد که از بخش‌هایی از کالیفرنیا بیرون می‌آیند؟

با این حال، دیدگاه های متعادل تری در دسترس است: در کتاب جدید عالی او، "DataPreneurs - وعده هوش مصنوعی و سازندگانی که آینده ما را می‌سازند،» باب موگلیا چگونگی یان لیکان از دانشگاه نیویورک و متا را برجسته می‌کند. اشاره می کند برخی اصول در مورد یادگیری و درک در "مسیری به سوی هوش ماشینی خودمختار نسخه 0.9.2، 2022-06-27":

به نظر می‌رسد که انسان‌ها و حیوانات غیرانسان قادر به یادگیری مقادیر عظیمی از دانش پیش‌زمینه در مورد چگونگی کارکرد جهان از طریق مشاهده و از طریق مقدار غیرقابل درک از تعاملات به شیوه‌ای مستقل از کار و بدون نظارت هستند. می توان فرض کرد که این دانش انباشته ممکن است مبنای چیزی باشد که اغلب عقل سلیم نامیده می شود. عقل سلیم را می‌توان مجموعه‌ای از مدل‌های جهان دانست که می‌تواند به یک عامل بگوید چه چیزی محتمل، چه چیزی قابل قبول است و چه چیزی غیرممکن است. با استفاده از چنین مدل های جهانی، حیوانات می توانند مهارت های جدیدی را با آزمایش های بسیار کمی بیاموزند. آنها می توانند پیامدهای اعمال خود را پیش بینی کنند، می توانند استدلال کنند، برنامه ریزی کنند، کاوش کنند و راه حل های جدیدی برای مشکلات تصور کنند. مهمتر از همه، آنها همچنین می توانند هنگام مواجهه با یک موقعیت ناشناخته از انجام اشتباهات خطرناک جلوگیری کنند.

همانطور که چت کوچک زیر نشان می دهد، عقل سلیم قطعا ارزش دیدن دارد.

یک چت اخیر

اخیراً در مورد GPT 4 چت کردم مدل سازی داده ها. من در مورد "25 نوع مدل داده مهم" پرسیدم.

وقتی نتیجه برگشت، بلافاصله متوجه شدم که Fact Modeling در لیست نیست. به محض این که من به آن اشاره کردم، نتیجه اصلاح شد و اکنون به این شکل است:

 "من به خاطر حذف عذرخواهی می کنم. مدل واقعیت در واقع یک تکنیک مدل‌سازی داده مهم است که برای مدل‌سازی سیستم‌های پیچیده و گرفتن قوانین تجاری استفاده می‌شود. بر شناسایی و تعریف حقایقی که عملیات یک سیستم را توصیف می کنند و همچنین روابط بین آن حقایق تمرکز دارد.

بنابراین، مدل واقعیت نیز باید در لیست مدل های داده مهم قرار گیرد. در اینجا لیستی به روز شده از 25 مدل داده مهم، از جمله مدل واقعیت آورده شده است:

    مدل داده های رابطه ای

    مدل داده های نهاد-رابطه (ER).

    مدل داده های شی گرا

    مدل داده های شی - رابطه ای

    مدل داده های سلسله مراتبی

    مدل داده های شبکه

    مدل داده های بعدی

    مدل داده فایل مسطح

    مدل داده های معنایی

    مدل داده های مفهومی

    مدل داده های منطقی

    مدل داده های فیزیکی

    مدل داده انبار داده

    دیتا مارت مدل داده

    مدل داده XML

    مدل داده NoSQL

    مدل داده مدار مدار

    مدل داده های ستون-خانواده

    مدل داده کلید-مقدار

    مدل داده های نموداری

    مدل داده RDF

    مدل داده OWL

    مدل داده UML

    مدل داده EAV

    مدل داده OLAP

    مدل واقعیت

ممنون که من را متوجه آن کردی."

من: آیا مدل‌های data vault و anchor نیز انواع مدل‌های داده مهم هستند؟

«بله، هر دو مدل خزانه داده و لنگر انواع مهمی از مدل‌های داده هستند که در سال‌های اخیر محبوبیت پیدا کرده‌اند.

پیش نمایش تحقیق رایگان. ChatGPT ممکن است اطلاعات نادرستی درباره افراد، مکان‌ها یا حقایق تولید کند.» 

***پایان چت با ChatGPT نسخه 23 مارس.

بله، اطلاعات نادرستی تولید کرد. و در یک مرحله "مهندسی سریع" اضافی، محتوا را به نتیجه اضافه کرد.

من وسوسه می شوم که بگویم: پیپی، تکلیف خود را انجام دهید!

زندگی را فقط می توان به عقب درک کرد، اما باید به سمت جلو زندگی کرد

عنوان فرعی بالا نقل قولی از فیلسوف دانمارکی است سورن کیرکگارد:

منبع تصویر: کتابخانه سلطنتی، دانمارک، 1923، مالکیت عمومی، از طریق در ویکیانبار موجود

مدل‌های زبان بزرگ (LLM) بر حسب ضرورت محصول حقایق گذشته در مورد رویدادهای گذشته هستند. اما ما، به عنوان مصرف‌کنندگان مولد هوش مصنوعی، به پیش‌بینی‌های قابل‌اعتماد نیاز داریم. حتی با توجه به اینکه همه "ترانسفورماتورها" اخبار قدیمی هستند. 

درک هر دو زمینه گذشته و آینده ضروری است. در واقع، هوش مصنوعی مولد و نتایج آن تمرینی برای حساسیت زمینه هستند - به عبارت دیگر، معناشناسی، معنا، ساختار، روابط، در طول زمان.

این تفرقه واقعی است.

اجرای پیش‌بینی‌های مولد بر اساس محتوای کمی قدیمی LLM مانند اجرای یک انبار داده از سال گذشته است.

افزودن پیش‌بینی‌ها در بالای LLMها به عنوان آمار نیز شناخته می‌شود. این همه خوب و خوب است، به ویژه اگر برخی از شاخص های کیفیت و اطمینان به شما ارائه شود.

نیاز به استانداردهای معنایی هنجاری؟

ما به عنوان متخصصان (مدل‌سازان داده و دانشمندان اطلاعات)، باید اقداماتی مسئولانه انجام دهیم تا ابزارهای مولد هوش مصنوعی را مجبور کنیم که بتوانند خود را به یک زمینه و معنای معین محدود کنند. 

این می تواند مدل های داده و واژه نامه خود سازمان باشد، اما همچنین می تواند هستی شناسی ها و واژگان رسمی صنعت یا کشور یا اتحادیه اروپا و همچنین schema.org و ویکی داده و غیره.
ما به نتایج هوش مصنوعی نیاز داریم تا زمینه های کاملاً تعریف شده را نشان دهیم و انطباق با معناشناسی تعریف شده را نشان دهیم.

در این فضا امکانات زیادی وجود دارد.

قبل از هر چیز می خواهم بدانم:

آیا این نتیجه بر اساس حقایق کاملاً مستند و ثابت شده? یا ممکن است معناشناسی و ادعاهای تخیلی رخ دهد؟ به عبارت دیگر، این واقعیت است یا خیالی؟ این نزدیک به اصرار بر یک برچسب عمومی به معنای "فقط حاوی حقایق تایید شده" است!

اگر من در یک بخش به شدت تنظیم شده مانند دولت، امور مالی، یا داروسازی بودم، می‌خواستم بدانم با چه اطمینانی می‌توانم به نتایج اعتماد کنم. آیا آنها در دادگاه نگه دارید، مثلا؟ آیا آنها چند زمانی هستند (یا حداقل دو زمانی)؟

نگاهی به مدیریت کیفیت به طور کلی (برای مثال به مجموعه ISO 9000 QMS مراجعه کنید استانداردهای) جنبه های زیادی از ISO 9000 وجود دارد که مدیریت داده می تواند از آنها بیاموزد. بنابراین، یک سیستم هوش مصنوعی مولد را می توان با توجه به دیدگاه کیفیتی که با آن مطابقت دارد برچسب گذاری کرد. این می تواند منجر به یک استاندارد مدیریت انطباق معنایی ISO? مشابه خانواده ISO 9000.

جنبه مهم دیگر این است اختصاصی. هستی شناسی FOAF را که با آن شروع کردیم فکر کنید. در واقع، استانداردهای بین‌المللی و ملی، واژگان و مدل‌های داده‌های صنعتی بسیار زیادی وجود دارد که معرفی یک انطباق بیانیه نتایج هوش مصنوعی

در اینجا، چند نمونه از رسانه معنایی «هنجاری» (یا حداقل معمولاً مورد استفاده) را دنبال کنید، که برای نگاشت معنا در اینترنت مفید است که از کتاب اخیر اندرو ایلیادیس با این عنوان گرفته شده است.andrewiliadis.com):

موارد فوق تنها چند نمونه است.

همچنین در سطوح ملی و بین‌المللی تعداد زیادی هستی‌شناسی، طبقه‌بندی، مدل‌های داده، طرح‌واره‌ها و آنچه شما دارید در دسترس عموم قرار دارد. 

خوب، در واقع، آنچه شما نیز دارید، برخی از مدل‌های داده دم‌نوش خانگی از خودتان است. آیا خوب نیست که یک آزمایش انطباق بین معنایی خود و یک AI LLM تولیدی داشته باشید؟ اگر از من بپرسید، می تواند یک ویژگی خوب محصول هوش مصنوعی باشد.

هوش مصنوعی مولد کاملاً سازگار

اگر در بخش مالی کار می‌کردم، شاید بخواهم بدانم که آیا نتیجه پیشنهادی، و همچنین مدل زبان، مطابق با واژگان و معناشناسی FIBO (هستی‌شناسی کسب‌وکار صنعت مالی منتشر شده توسط شورای EDM) تأیید شده است یا خیر. . اگر بتوانم روی آن حساب کنم، در خانه امن هستم. در غیر این صورت، من باید بخوانم، تفسیر کنم، و نتیجه‌گیری بیشتری بگیرم - همراه با گروهی از همکاران در بخش انطباق با مقررات. در بخش مالی، کارکنان در حال حاضر با BCBS 239 به سمت این جاده هدایت می شوند استاندارد درخواست طبقه بندی و معماری یکپارچه. 

نه تنها نتایج، بلکه ترانسفورماتورها و سایر بخش‌های مدل‌های زبان نیز باید به‌طور قابل تأییدی مطابقت داشته باشند. 

من صادقانه معتقدم که اگر قرار است تجارت و سیاست بر اساس هوش مصنوعی مولد در مقیاس بزرگتر انجام شود، جهان به تضمین کیفیت در این سطوح نیاز دارد. بنابراین، آن ژنراتورهای AI گواهی شده را وارد کنید! و به ما، افراد دارای HI، یک فرصت بدهید!

تمبر زمان:

بیشتر از DATAVERSITY