A kategorikus kódolások hatása az anomália-észlelési módszerekre

A kategorikus kódolások hatása az anomália-észlelési módszerekre

Forrás csomópont: 1926115

Bevezetés

Az auditálási adatok világa összetett lehet, és számos kihívást le kell küzdenie. Az egyik legnagyobb kihívás a kategorikus attribútumok kezelése adatkészletek kezelése közben. Ebben a cikkben az adatok auditálásának, az anomáliák felderítésének és a kategorikus attribútumok kódolásának modellekre gyakorolt ​​hatásának világába fogunk beleásni.

Az adatok auditálása során az anomáliák észlelésével kapcsolatos egyik fő kihívás a kategorikus attribútumok kezelése. A kategorikus attribútumok kódolása kötelező, mert a modellek nem tudják értelmezni a szövegbevitelt. Általában ez a címkekódolás vagy a One Hot kódolás használatával történik. Egy nagy adathalmazban azonban a One-hot kódolás gyenge modellteljesítményhez vezethet a dimenzionalitás átka miatt.

Tanulási célok

  1. Megérteni az adatok auditálásának fogalmát és a kihívást

  2. A mély, felügyelet nélküli anomáliák kimutatásának különböző módszereinek értékelése.
  3. Megérteni a kategorikus attribútumok kódolásának hatását az adatok anomáliák észlelésére használt modellekre.

Ez a cikk részeként jelent meg Adattudományi Blogaton.

Tartalomjegyzék

  1. Mi az Auata?
  2.  Mi az anomália észlelése?
  3. Az adatok auditálása során felmerülő főbb kihívások
  4. Adatkészletek auditálása anomáliák észleléséhez
  5.  Kategóriai attribútumok kódolása
  6.  Kategorikus kódolások
  7. Felügyelet nélküli anomália-észlelő modellek
  8. Hogyan hat a kategorikus attribútumok kódolása a modellekre?
    8.1 Az Autóbiztosítási adatkészlet t-SNE reprezentációja
    8.2 A Járműbiztosítási adatkészlet t-SNE reprezentációja
    8.3 A Járműkövetelések adatkészlet t-SNE reprezentációja
  9.  Következtetés

at is Auditing Data?

Az auditálási adatok magukban foglalhatják a naplókat, a biztosítási követeléseket és az információs rendszerek behatolási adatait; Ebben a cikkben a példák a gépjárművek biztosítási követelései. A biztosítási kárigények nagyobb számú kategorikus jellemzővel különböztethetők meg az anomália-észlelési adatkészletektől, például a KDD-től.

A kategorikus jellemzők az adataink diszkutjai, amelyek lehetnek egész vagy karakteresek. A numerikus jellemzők folyamatos attribútumok az adatainkban, amelyek mindig valós értékűek. A numerikus jellemzőkkel rendelkező adatkészletek népszerűek az anomália-észlelési közösségben, például a hitelkártya-csalási adatok. A legtöbb nyilvánosan elérhető adatkészlet kevesebb kategorikus jellemzőt tartalmaz, mint a biztosítási káradatok. A kategorikus jellemzők nagyobb számban szerepelnek, mint a numerikus jellemzők a biztosítási kárigények adatkészleteiben.

A biztosítási igény olyan jellemzőket tartalmaz, mint a modell, márka, bevétel, költség, kiadás, szín stb. A kategorikus jellemzők száma magasabb az auditálási adatokban, mint a hitelkártya és a KDD adatkészletekben. Ezek az adatkészletek referenciaértékek a felügyelet nélküli anomália-észlelési módszerekben. Amint az alábbi táblázatban látható, a biztosítási kárigény-adatkészletek kategorikusabb jellemzőkkel rendelkeznek, amelyek fontosak a hamis adatok viselkedésének megértéséhez.

A kategorikus kódolások hatásának értékelésére használt auditálási adatkészletek a következők: Autóbiztosítás, Járműbiztosítás és Gépjármű-igények.

kategorikus értékek

Mi az anomália észlelése?

Az anomália olyan megfigyelés, amely egy adathalmaz normál adataitól egy meghatározott távolságra (küszöbérték) távol esik. Az adatok auditálása szempontjából előnyben részesítjük a csaló adat kifejezést. Az anomália-észlelés gépi tanulás vagy mély tanulási modell segítségével megkülönbözteti a normál és a hamis adatokat. Különböző módszerek használható anomáliák kimutatására, például sűrűségbecslésre, rekonstrukciós hibára és osztályozási módszerekre.

  • Sűrűségbecslés – Ezek a módszerek megbecsülik a normál adateloszlást, és osztályozzák az anomális adatokat, ha nem vettek mintát a tanult eloszlásból.
  • Rekonstrukciós hiba – A rekonstrukciós hiba alapú módszerek azon az elven alapulnak, hogy a normál adatok kisebb veszteséggel rekonstruálhatók, mint az anomális adatok. Minél nagyobb a rekonstrukciós veszteség, annál nagyobb az esélye annak, hogy az adat anomáliát jelent.
  • Osztályozási módszerek - Osztályozási módszerek, mint pl Véletlen Erdő, Isolation Forest, One Class – Support Vector Machines és Local Outlier Factors használhatók az anomáliák kimutatására. Az anomália-észlelésben az osztályozás magában foglalja az egyik osztály anomáliaként való azonosítását. Ennek ellenére az osztályok két csoportra (0 és 1) vannak osztva a többosztályos forgatókönyvben, és a kevesebb adatot tartalmazó osztály az anomális osztály.

A fenti módszerek kimenetele anomália pontszámok vagy rekonstrukciós hibák. Ezután döntenünk kell egy küszöbről, amely szerint osztályozzuk az anomális adatokat.

Az adatok auditálása során felmerülő főbb kihívások

  • Kategorikus tulajdonságok kezelése:  A kategorikus attribútumok kódolása kötelező, mert a modell nem tudja értelmezni a szövegbevitelt. Tehát az értékek Label kódolással vagy One Hot kódolással vannak kódolva. Egy nagy adatkészletben azonban a One hot encoding az attribútumok számának növelésével nagy dimenziós térré alakítja az adatokat. A modell gyengén teljesít a a dimenzionalitás átka.
  • Az osztályozási küszöb kiválasztása:  Ha az adatok nincsenek címkézve, akkor nehéz a modell teljesítményét értékelni, mert nem ismerjük az adathalmazban előforduló anomáliák számát. Az adatkészlettel kapcsolatos előzetes ismeretek megkönnyítik a küszöb meghatározását. Tegyük fel, hogy adataink között 5-ből 10 rendellenes minta szerepel. Tehát kiválaszthatjuk a küszöböt az 50 százalékos pontszámnál.
  • Nyilvános adatkészletek: A legtöbb auditálási adatkészlet bizalmas, mivel vállalati vállalatokhoz tartoznak, és érzékeny és személyes információkat tartalmaznak. A titoktartási problémák mérséklésének egyik lehetséges módja a szintetikus adatkészletek (Vehicle Claims) használatának oktatása.

Adatkészletek auditálása anomáliák észleléséhez

A gépjárművekre vonatkozó biztosítási kárigények a jármű tulajdonságaira vonatkozó információkat tartalmaznak, mint például a modell, a márka, az ár, az évjárat és az üzemanyag típusa. Információkat tartalmaz a sofőrről, a születési dátumról, a nemről és a szakmáról. Ezenkívül a követelés tartalmazhat információkat a javítás teljes költségéről. A cikkben használt adatkészletek mindegyike egyetlen tartományból származik, de az attribútumok és a példányok száma eltérő.

  • A Vehicle Claims adatkészlet nagy, több mint 250,000 1171 sort tartalmaz, és kategoriális attribútumainak száma XNUMX. Nagy mérete miatt ez az adatkészlet szenved a dimenzionalitás átkától.

  • A Járműbiztosítás adatkészlet közepes méretű, 15,420 151 sorral és XNUMX egyedi kategorikus értékkel rendelkezik. Ezáltal kevésbé hajlamos a dimenzionalitás átka elszenvedésére.
  • Az Autóbiztosítási adatkészlet kicsi, címkékkel és 25%-ban anomáliás mintákkal, és hasonló számú numerikus és kategorikus jellemzőt tartalmaz. 169 egyedi kategóriájával nem szenved a dimenzionalitás átkától.

Kategorikus attribútumok kódolása

kategorikus értékek

Kategorikus értékek különböző kódolásai

  • Címkekódolás – A címkekódolásban a kategorikus értékeket 1 és a kategóriák száma közötti numerikus egész értékekre cseréljük. A címkekódolás a kategóriákat a sorrendi értékeknek szánt módon reprezentálja. Mégis, ha a jellemzők névlegesek, az ábrázolás helytelen, mivel a kategorikus értékek nem felelnek meg egy meghatározott sorrendnek.
    Például, ha egy szolgáltatásban olyan kategóriák vannak, mint az Automatikus, Hibrid, Kézi és Félautomata, a címkekódolás ezeket az értékeket {1: Automatic, 2: Hibrid, 3: Manual, 4:Semi-Automatic} értékké alakítja. Ez az ábrázolás nem ad információt a kategorikus értékekről, de az olyan ábrázolások, mint például a {0: Alacsony, 1: Közepes, 2: Magas} egyértelmű megjelenítést adnak, mivel az Alacsony jellemzőváltozóhoz alacsonyabb számérték van hozzárendelve. Ezért a címkekódolás jobb az ordinális értékeknél, de hátrányos a névleges értékeknél.
  • One Hot Encoding – A névleges kódolási értékek problémájának megoldására a One Hot kódolást használják, amely minden kategorikus értéket a bináris értékekből álló adatkészletben különálló jellemzővé alakít át. Például négy különböző, {1, 2, 3, 4} kódolású kategória esetén a One Hot kódolás új funkciókat hoz létre, mint például {Automatic: [1,0,0,0], Hibrid: [0,1,0,0 ,0,0,1,0], Kézi: [0,0,0,1], Félautomata: [XNUMX]}.
    Az adatkészlet dimenziója ezután közvetlenül függ az adatkészletben található kategóriák számától. Ennek eredményeként a One Hot kódolás a dimenzionalitás átkához vezethet, ami ennek a kódolási módszernek a hátránya.
  • GEL kódolás – A GEL kódolás egy beágyazási technika, amely felügyelt és felügyelet nélküli tanulási módszerekben is használható. A One Hot kódolás elvén alapul, és a One Hot kódolással kódolt kategorikus jellemzők dimenziójának csökkentésére használható.
  • Réteg beágyazása -  A szóbeágyazások lehetőséget biztosítanak egy kompakt és sűrű ábrázolás használatára, amelyben a hasonló szavak hasonló kódolásúak. A beágyazás olyan lebegőpontos értékek sűrű vektora, amelyek betanítható paraméterek. A Word-beágyazások 8-dimenzióstól (kis adatkészletekhez) 1024-dimenziósig (nagy adatkészletekhez) terjedhetnek.
    A nagyobb dimenziójú beágyazás részletesebb kapcsolatokat rögzíthet a szavak között, de több adatot igényel a tanuláshoz. A beágyazási réteg egy keresőtábla, amely a mátrixban lévő minden szót meghatározott méretű vektorokká alakít.

Felügyelet nélküli anomália-észlelő modellek

A való világban az adatok a legtöbb esetben nincsenek címkézve, és az adatok címkézése drága és időigényes. Ezért értékeléseinkhez felügyelet nélküli modelleket fogunk használni.

  • SOM  - A Self-Organizing Map (SOM) egy versengő tanulási módszer, ahol a neuronok súlyát kompetitív módon frissítik, nem pedig a backpropagation tanulást. A SOM neuronok térképéből áll, amelyek mindegyikének súlyvektora megegyezik a bemeneti vektorral. A súlyvektor véletlenszerű súlyokkal inicializálódik az edzés megkezdése előtt. A betanítás során minden bemenetet összehasonlítanak a térkép neuronjaival egy távolságmérő (pl. euklideszi távolság) alapján, és leképezik a legjobb egyezési egységre (BMU, Best Matching Unit), amely a bemeneti vektortól minimális távolsággal rendelkező neuron.
    A BMU súlyai ​​a bemeneti vektor súlyaival frissülnek, a szomszédos neuronok pedig a szomszédsági sugár (szigma) alapján. Mivel a neuronok egymással versengenek a legjobban illeszkedő egységért, ezt a folyamatot kompetitív tanulásnak nevezik. Végül a normál minták neuronjai közelebb vannak, mint az anomálisak. Az anomália pontszámait a kvantálási hiba határozza meg, amely a bemeneti minta és a legjobban illeszkedő egység súlyai ​​közötti különbség. A nagyobb kvantálási hiba azt jelzi, hogy nagyobb a valószínűsége annak, hogy a minta anomália.
  • DAGMM –  A Deep Autoencoding Gaussian Mixture Model (DAGMM) egy sűrűségbecslési módszer, amely feltételezi, hogy az anomáliák egy kis valószínűségű régióban találhatók. A hálózat két részre oszlik: egy tömörítő hálózatra, amely egy autoencoder segítségével az adatok alacsonyabb dimenziókba történő kivetítését szolgálja, valamint egy becslési hálózatra, amely a Gauss-féle keverékmodell paramétereinek becslésére szolgál. A DAGMM megbecsüli k számú Gauss-elegyet, ahol k tetszőleges szám lehet 1-től N-ig (az adatpontok száma), és feltételezzük, hogy a normál pontok egy nagy sűrűségű tartományban helyezkednek el, ami azt jelenti, hogy a mintavétel valószínűsége A Gauss-elegy magasabb a normál pontoknál, mint az anomális mintáknál. Az anomália pontszámokat a minta becsült energiája határozza meg.
  • RSRAE – A Felügyelet nélküli anomália-észlelés robusztus felület-helyreállítási rétege egy olyan rekonstrukciós hibamódszer, amely először egy automatikus kódoló segítségével alacsonyabb dimenzióba vetíti az adatokat. A látens reprezentációt ezután ortogonális vetületnek vetik alá egy lineáris altérre, amely robusztus a kiugró értékekre. A dekóder ezután rekonstruálja a lineáris altér kimenetét. Ennél a módszernél a nagyobb rekonstrukciós hiba azt jelzi, hogy nagyobb a valószínűsége annak, hogy a minta anomália.
  • SOM-DAGMM- Az önszervező térkép (SOM) – Mélyen Autoencoding Gaussian Mixture Model (DAGMM) egyben sűrűségbecslési modell is. A DAGMM-hez hasonlóan a normál adatpontok valószínűségi eloszlását is megbecsüli, és egy adatpontot anomáliának minősít, ha kicsi a valószínűsége annak, hogy a tanult eloszlásból mintavételre kerül. A fő különbség a SOM-DAGMM és a DAGMM között az, hogy a SOM-DAGMM tartalmazza a SOM normalizált koordinátáit a bemeneti mintához, amely DAGMM esetén a hiányzó topológiai információkat szolgáltatja a becslési hálózatnak. A cél abban is hasonló a DAGMM-hez, hogy az anomália pontszámokat a minta becsült energiája határozza meg, az alacsony energia pedig a minta anomáliájának nagyobb valószínűségét jelzi.

Ezután a kategorikus attribútumok kezelésének kihívásával foglalkozunk.

Hogyan hat a kategorikus attribútumok kódolása a modellekre?

A különböző kódolások adatkészletekre gyakorolt ​​hatásának megértéséhez a t-SNE-t fogjuk használni az adatok alacsony dimenziós reprezentációinak megjelenítésére a különböző kódolásokhoz. A t-SNE a nagy dimenziós adatokat egy alacsonyabb dimenziójú térbe vetíti, így könnyebben láthatóvá válik. Ha összehasonlítjuk a t-SNE vizualizációkat és ugyanannak az adatkészletnek a különböző kódolásainak numerikus eredményeit, a különbség megfigyelhető a kapott reprezentációkban és a kódolásnak az adatkészletre gyakorolt ​​hatásának megértésében.

Az autóbiztosítási adatkészlet t-SNE reprezentációja

Anomáliadetektálás
Anomáliadetektálás

A járműbiztosítási adatkészlet t-SNE reprezentációja

Anomáliadetektálás
Anomáliadetektálás
  • Az adatok közelebb állnak egymáshoz, mert a sorok száma magasabb, mint az Autóbiztosítás adatkészletében. A One Hot kódolás megnövekedett dimenziójával nehéz elválasztani.

  • A GEL kódolás minden esetben jobb, mint a One Hot kódolás, kivéve a DAGMM-et.

A Vehicle Claims adatkészlet t-SNE reprezentációja

  • Az adatok minden esetben szorosan kötöttek, ami megnehezíti az elkülönítést a megnövekedett dimenzióval. Ez az egyik oka a modellek gyenge teljesítményének a megnövekedett méretek miatt.

  • A SOM felülmúlja az összes többi modellt ennél az adatkészletnél. Ennek ellenére a legtöbb esetben a beágyazási réteg alkalmasabb, ami alternatívát kínál a kódolás helyett kategorikus tulajdonságok az anomália észlelésére.

Következtetés

Ez a cikk rövid áttekintést nyújt az auditálási adatokról, az anomáliák észleléséről és a kategorikus kódolásokról. Fontos megérteni, hogy a kategorikus attribútumok kezelése az adatok auditálása során kihívást jelent. Ha megértjük az attribútumok kódolásának a modellekre gyakorolt ​​hatását, javíthatjuk az anomáliák észlelésének pontosságát az adatkészletekben. Ennek a cikknek a legfontosabb elemei a következők:

  • Az adatok méretének növekedésével fontos, hogy a kategorikus attribútumokhoz alternatív kódolási módszereket alkalmazzunk, mint például a GEL-kódolás és a rétegek beágyazása, mivel a One Hot kódolás nem megfelelő.
  • Egy modell nem működik minden adatkészlethez. A táblázatos adatkészletek esetében a domain ismerete rendkívül fontos.
  • A kódolási módszer kiválasztása a modell választásától függ.

A modellek értékelésének kódja a következő címen érhető el: GitHub.

A cikkben bemutatott média nem az Analytics Vidhya tulajdona, és a szerző saját belátása szerint használja.

Időbélyeg:

Még több Analytics Vidhya