Generatív mesterséges intelligencia és szemantikai megfelelőség – DATAVERSITY

Forrás csomópont: 2171195

Csak a CPT és társai tudják, hány állítás született a generatív mesterséges intelligencia eredményei alapján. De rengeteg van belőlük.

Előéletem, mint a adatmodellező sok éven keresztül kicsit megborzongok, mert amit a barátságos mesterséges intelligencia segítők előállítanak, az kognitív folyamatoknak van kitéve, ahol mi, olvasók dolgozzuk fel a bemenetet, az AI-eredményeket, tekintettel a felfogott szemantika (magunktól), konkrét tudás, amelyet mindannyian felépítettünk az idők során. És arra számítunk, hogy az AI-eredmények hasonló (azaz megfelelő) mintákat követnek. 

Más szóval azt várnám, hogy a „ChatSome” implicit módon megfeleljen a képzési készletekbe beépített konkrét szemantikának:

útján készült diagram WebWOWL – menjen oda és olvassa el a diagramot

A szemantikai hálózat a fenti példában a jól ismert FOAF (Friend of a Friend) ontológia, amely a világháló közösségéből származik. Tehát, ha a ChatSome barátokkal kapcsolatos kérdéseket tárgyal, természetesnek tűnik, hogy a fenti szabványtól (FOAF) nem túlságosan eltérő szemantikai struktúrákra számítsunk.

A közös szemantika elengedhetetlen az emberi kommunikációban.

Gyors mérnökök a mentéshez?

Úgy tűnik, hogy a mesterséges intelligencia marketingeseitől a válasz egyelőre gondos, gondos, „prompt engineering” – mert ha nem tudod meghatározni, miről kérdezel, hogyan tudna bármely MI (vagy ember) intelligensen válaszolni?

Lásd például Oguz A. Acar Harvard Business Review legújabb cikkét: „Az AI Prompt Engineering nem a jövő"

Javasolom, hogy olvassa el a cikket, de a lényeget ebből az idézetből megtudhatja: 

„A körülötte zajló nyüzsgés ellenére azonban a gyors tervezés előtérbe kerülése több okból is múlékony lehet. Először is, a mesterséges intelligencia-rendszerek jövő generációi intuitívabbak és ügyesebbek lesznek a természetes nyelv megértésében, így csökken az aprólékosan megtervezett felszólítások iránti igény. Másodszor, az új mesterséges intelligencia nyelvi modellek, mint például a GPT4, már most is nagy ígéretet mutatnak az utasítások elkészítésében – maga az AI már a küszöbén áll, hogy az azonnali tervezést elavulttá tegye. Végül, a promptok hatékonysága az adott algoritmustól függ, ami korlátozza használhatóságukat a különféle mesterséges intelligencia modellekben és verziókban.

Tehát mi az a tartósabb és alkalmazkodóbb készség, amely továbbra is lehetővé teszi számunkra, hogy kiaknázzuk a generatív AI-ban rejlő lehetőségeket? Ez probléma megfogalmazása – a problémák azonosításának, elemzésének és körülhatárolásának képessége.

Ezzel messzemenően egyetértek. Ez azt jelenti, hogy van még tennivaló. Valójában úgy tűnik számomra, hogy amit a legoptimistább és legreményesebb generatív mesterségesintelligencia-piacformálóktól hallunk, az egyenértékű a svéd író, Astrid Lindgren híres (állítólagos) idézetével, aki állítólag megengedi főszereplőjét, Pippit. Harisnyás mondja: "Soha nem próbáltam még ilyet, úgyhogy úgy gondolom, hogy képes vagyok rá."

Íme egy könyvborító a Harisnyás Pippi univerzumból:

Képforrás: Rakuten kobo

Pippinek semmi sem volt túl nehéz, még a lovát sem! Legalább 14 könyv és számos film dokumentálja ezt. A gyerekeket és szüleiket már felnőtt korukban lenyűgözik ezek a történetek. Miért juttat ez eszembe néhány Kalifornia egyes részeiből származó narratívát?

Vannak azonban kiegyensúlyozottabb nézetek is: Kiváló új könyvében „A DataPreneurs – Az AI ígérete és a jövőnket építő alkotók” – emeli ki Bob Muglia, hogyan Yann LeCun, a New York-i Egyetem és a Meta rámutat néhány alapelv a tanulásról és a megértésről: „Út az autonóm gépi intelligencia felé, 0.9.2-es verzió, 2022-06-27”:

„Úgy tűnik, az emberi és nem emberi állatok hatalmas mennyiségű háttértudást sajátíthatnak el a világ működéséről megfigyelés és felfoghatatlanul kis mennyiségű interakció révén, feladattól független, felügyelet nélkül. Feltételezhető, hogy ez a felhalmozott tudás képezheti az alapját annak, amit gyakran józan észnek neveznek. A józan ész világmodellek gyűjteményének tekinthető, amely meg tudja mondani az ügynöknek, hogy mi valószínű, mi hihető és mi lehetetlen. Az ilyen világmodellek segítségével az állatok nagyon kevés próbával új készségeket sajátíthatnak el. Meg tudják jósolni tetteik következményeit, tudnak érvelni, tervezni, feltárni, új megoldásokat képzelni a problémákra. Fontos, hogy elkerülhetik a veszélyes hibákat, amikor ismeretlen helyzettel szembesülnek.”

A józan észt mindenképpen érdemes megnézni, amint azt az alábbi kis chat is mutatja.

Egy legutóbbi csevegés

Nemrég beszélgettem a GPT 4-el arról adatmodellezés. A „25 LEGFONTOSABB adatmodell-típusról” kérdeztem.

Amikor megérkezett az eredmény, azonnal észrevettem, hogy a Ténymodellezés nem szerepel a listán. Amint ezt megjegyeztem, az eredmény módosult, és most így nézett ki:

 „Elnézést kérek a mulasztásért. A ténymodell valóban fontos adatmodellezési technika, amelyet összetett rendszerek modellezésére és üzleti szabályok rögzítésére használnak. A rendszer működését leíró tények, valamint a tények közötti kapcsolatok azonosítására és meghatározására összpontosít.

Ezért a Ténymodellnek is szerepelnie kell a fontos adatmodellek listáján. Íme egy frissített lista a 25 legfontosabb adatmodellről, köztük a ténymodellről:

    Relációs adatmodell

    Entitás-kapcsolat (ER) adatmodell

    Objektum-orientált adatmodell

    Objektum-relációs adatmodell

    Hierarchikus adatmodell

    Hálózati adatmodell

    Dimenziós adatmodell

    Lapos fájl adatmodell

    Szemantikus adatmodell

    Fogalmi adatmodell

    Logikai adatmodell

    Fizikai adatmodell

    Adattárház adatmodell

    Data Mart adatmodell

    XML adatmodell

    NoSQL adatmodell

    Dokumentum-orientált adatmodell

    Oszlop-családi adatmodell

    Kulcsérték adatmodell

    Grafikon adatmodell

    RDF adatmodell

    OWL adatmodell

    UML adatmodell

    EAV adatmodell

    OLAP adatmodell

    Ténymodell

Köszönöm, hogy felhívtad rá a figyelmemet.”

Én: Az adattároló és a horgonymodellek is fontos adatmodelltípusok?

„Igen, mind az adattároló, mind a horgonymodellek fontos adatmodellek, amelyek az elmúlt években népszerűvé váltak.

Ingyenes kutatási előnézet. A ChatGPT pontatlan információkat szolgáltathat emberekről, helyekről vagy tényekről.” 

***A csevegés vége a ChatGPT március 23-i verziójával.

Igen, pontatlan információkat szolgáltatott. És egy további „prompt engineering” lépésben tartalmat adott az eredményhez.

Nagy a kísértés, hogy azt mondjam: Pippi, csináld a házi feladatod!

Az életet csak visszafelé lehet megérteni, de előre kell élni

A fenti alcím egy idézet a dán filozófustól Soren Kierkegaard:

A kép forrása: The Royal Library, Denmark, 1923, public domain, via Wikimedia Commons

A nagy nyelvi modellek (LLM-ek) szükségszerűen a múltbeli eseményekkel kapcsolatos múltbeli tények termékei. De nekünk, mint generatív AI-fogyasztóknak szükségünk van előremutató megbízható előrejelzésekre. Még akkor is, ha az összes „transzformátor” régi hír. 

A múlt és a jövő összefüggéseinek megértése alapvető fontosságú. Valójában a generatív mesterséges intelligencia és annak eredményei a kontextusérzékenység gyakorlata – más szóval a szemantika, a jelentés, a struktúra, a kapcsolatok, idővel.

Ez az igazi szakadás.

Kissé elavult LLM-tartalom alapján generatív előrejelzéseket futtatni olyan, mintha egy tavalyi adattárházban futnánk.

Az előrejelzések hozzáadása az LLM-ekhez statisztikaként is ismert. Ez minden rendben van, különösen, ha rendelkezik bizonyos minőségi és bizalommutatókkal.

Normatív szemantikai szabványokra van szüksége?

Nekünk, mint szakembereknek (adatmodellezőknek és információtudósoknak) felelősségteljes lépéseket kell tennünk, hogy rákényszerítsük a generatív AI-eszközöket arra, hogy egy adott kontextushoz és szemantikához kapcsolódjanak. 

Ez lehet egy szervezet saját adatmodellje és szószedete, de lehetnek iparági, ország- vagy EU hivatalos ontológiák és szótárak, valamint schema.org és Wikidata és így tovább.
Szükségünk van az AI-eredményekre, hogy világosan meghatározott összefüggéseket mutassanak, és megfeleljenek a meghatározott szemantikának.

Ezen a téren sok lehetőség rejlik.

Mindenekelőtt a következőket szeretném tudni:

Ez az eredmény azon alapul teljesen dokumentálható, megállapított tények? Vagy előfordulhatnak fiktív szemantika és állítások? Más szóval, ez tény vagy fikció? Ez közel áll ahhoz, hogy ragaszkodjunk egy általános címkéhez, ami azt jelenti, hogy „Csak hitelesített tényeket tartalmaz”!

Ha olyan erősen szabályozott szektorban lennék, mint a kormányzat, a pénzügy vagy a gyógyszeripar, szeretném tudni, milyen bizalommal bízhatok az eredményekben. Fogják tartsa a bíróságon, például? Többidősek (vagy legalábbis bitemporálisak)?

Keresi a minőség ellenőrzés általában (lásd például az ISO 9000 QMS készletét szabványok) az ISO 9000 számos vonatkozása van, amelyekből az adatkezelés tanulhat. Tehát egy generatív AI-rendszert fel lehet címkézni a minőségi szempont szerint, amelynek megfelel. Ez ahhoz vezethet, hogy egy ISO szemantikai megfelelőség-kezelési szabvány? Hasonló az ISO 9000 családhoz.

Egy másik fontos szempont sajátosság. Gondoljunk csak arra a FOAF ontológiára, amellyel kiindultunk. Valójában annyi nemzetközi és nemzeti szabvány, szókészlet és iparági adatmodell létezik, hogy érdemes lenne bevezetni egy teljesítés nyilatkozat az AI eredményekről.

Kövesse az alábbiakban néhány példát a „normatív” (vagy legalábbis általánosan használt) szemantikai médiáról, amelyek hasznosak az internetes jelentéstérképezéshez, Andrew Iliadis legutóbbi ilyen című könyvéből (andrewiliadis.com):

A fenti csak néhány példa.

Nemzeti és nemzetközi szinten is rengeteg nyilvános ontológia, taxonómia, adatmodell, séma és mi van. 

Nos, tulajdonképpen néhány saját házi sörfőzési adatmodellje van. Nem lenne jó, ha a saját szemantikája és egy generatív AI LLM szemantikája között megfelelőségi tesztet végezne? Ha engem kérdezel, ez egy jó AI termékfunkció lehet.

Igazolhatóan kompatibilis generatív AI

Ha a pénzügyi szektorban dolgoznék, érdemes lenne tudni, hogy a javasolt eredmény, valamint a nyelvi modell megfelelt-e a FIBO szókincsének és szemantikájának (az EDM tanácsa által kiadott pénzügyi iparági üzleti ontológia) . Ha számíthatok rá, biztonságban vagyok otthon. Ha nem, akkor el kell olvasnom, értelmeznem, és további következtetéseket kell levonnom – a szabályozási megfelelési osztályon dolgozó kollégákkal együtt. A pénzügyi szektorban a személyzetet már ezen az úton irányítják, a BCBS 239 segítségével standard integrált taxonómiákat és architektúrákat kérve. 

Nemcsak az eredményeknek, hanem a transzformátoroknak és a nyelvi modellek egyéb részeinek is ellenőrizhetően megfelelőnek kell lenniük. 

Őszintén hiszem, hogy a világnak minőségbiztosításra van szüksége ezeken a szinteken, ha az üzletet és a politikát nagyobb léptékben generatív mesterséges intelligencia alapján kívánjuk folytatni. Tehát hozza be azokat a minősített AI generátorokat! És adj nekünk, a HI-vel rendelkezőknek egy esélyt!

Időbélyeg:

Még több ADATVERZITÁS