A kép szerzője
Az adattudósok, adatmérnökök és gépi tanulási mérnökök sok idejüket töltik azzal, hogy adatokat néznek, és statisztikai rajzokat vagy következtetéseket találnak azokból. De egy nagy dolog, ami szükséges ezeknek a szakembereknek és bárkinek, aki adatokat néz, jó intuícióval rendelkezik a való világhoz.
Az adatoknak számos változója van, amelyeket figyelembe vehet, de jó megjegyezni, hogy véges dimenziós reprezentációt állít elő. Itt kell túllátnia az adatokon, és rá kell jönnie, hogy mi a rejtett valóság, és hogyan alkalmazható az adatkészletre.
Simpson paradoxona bizonyítja számunkra, hogy mennyire fontos, hogy szkeptikusak legyünk az adatok értelmezésekor, és biztosítsuk, hogy a valós világot alkalmazzuk – anélkül, hogy korlátoznánk magunkat abban, hogy az adatok szemszögéből lássuk azokat.
1972-ben Colin R. Blyth bevezette a Simpson-paradoxon nevet, más néven Simpson-visszafordítást, Yule-Simpson-effektust, összevonási paradoxont vagy fordított paradoxont.
Simpson-paradoxon az, amikor egy trend vagy kimenet jelen van, amikor az adatokat olyan csoportokba helyezik, amelyek vagy megfordulnak, vagy eltűnnek az adatok kombinálásakor. Ez egy statisztikai paradoxon, ahol ugyanazokból az adatokból két ellentétes következtetést vonhat le, attól függően, hogy az adatok hogyan vannak csoportosítva.
UC Berkeley és Simpson paradoxona
Simpson paradoxonának népszerű példája UC Berkeley tanulmánya a nemi elfogultságról a posztgraduális felvételinél. 1973-ban, a tanév elején az UC Berkeley posztgraduális iskolája körülbelül 44%-át férfi és 35%-a női jelentkezőknek fogadott be. Az iskola attól tartott, hogy pert indítanak, ezért felkészültek erre úgy, hogy megkérték Peter Bickel statisztikust, hogy nézze meg az adatokat.
Kiderült, hogy statisztikailag szignifikáns nemi elfogultság volt, amely 4/6 osztályon a nők javára, a fennmaradó 2 osztályon pedig nem volt szignifikáns nemi elfogultság. A csapat eredményei azt mutatták, hogy a nők olyan osztályokra jelentkeztek, amelyeknél általános volt a jelentkezők kisebb százaléka.
A Simpson-paradoxonban figyelembe kell venni a valós forgatókönyveket és változókat, amelyek elrejthetők és nem könnyen értelmezhetők adatokon keresztül. Ebben a példában a rejtett változó az, hogy több nő jelentkezett egy adott osztályra. Ez befolyásolja az elfogadott pályázók százalékos arányát, oly módon, hogy az eredetileg az adatokban szereplő fordított tendenciát mutatja.
A csapat ezután arra a következtetésre jutott, hogy az adatokra vonatkozó eredményeik megváltoztak, amikor ezt figyelembe vették az iskola osztályokra osztásánál.
Az alábbi kép bemutatja, hogyan fordulnak meg a trendek az adatok csoportosítása során:
Kép Wikipedia
Simpson paradoxona bonyolultabbá teheti az adatokkal való munkát, és megnehezítheti a döntéshozatali folyamatot.
Ha másképp kezdi újra mintavételezni az adatait, más következtetésekre jut. Ez természetesen megnehezíti, hogy egy konkrét következtetést válasszon további betekintéshez. Ez azt jelenti, hogy a csapatnak meg kell találnia a legjobb következtetést, amely igazságosan reprezentálja az adatokat.
Amikor adatokkal kapcsolatos projektekkel dolgozunk, gyakran az adatokra koncentrálunk, és megpróbáljuk értelmezni azt a történetet, amelyet az elmesélni próbál nekünk. De ha a való világ tudását alkalmazzuk, az teljesen más történetet mesélne el nekünk.
Ennek fontosságának megértése több lehetőséget nyit meg előttünk, hogy mélyebben belenézzünk az adatokba, és elegendő elemzést végezzünk a döntéshozatali folyamatban. A Simpson-paradoxon arra fókuszál, hogy a kellő analitikus betekintés és az átfogó projektismeret hiánya hogyan vezethet félre bennünket, és hogyan hozhat rossz döntéseket.
Például növekedést tapasztalunk a valós idejű adatelemzés használatában. Egyre több csapat alkalmazza ezt, hogy segítsen felismerni a mintákat, és ezt a betekintést rövid időn belüli döntések meghozatalára használja. A valós idejű adatelemzéssel való munka akkor hatékony, ha arra összpontosít, hogyan javíthat egy vállalatot a jelenlegi valós idejű adatok alapján. Ezek a rövid időszakok azonban félrevezető információkat adhatnak, és elrejtik az adatok által mutatott általános valódi trendet.
A rossz adatelemzés visszatarthatja a vállalatot. És mindannyian tudjuk, hogy a rossz döntések mindig hátráltatják a céget. Ezért a Simpson-paradoxon figyelembe vétele a vállalat számára előnyös, ha megérti az adatok korlátait, azt, hogy mi vezeti az adatokat, és a különböző változókat, és alacsonyan tartja a torzítást.
A Simpson's Paradox segít emlékeztetni az adatokkal dolgozó szakembereket az adatok megértésének fontosságára és adatintuíciójuk szintjére. Ekkor jelenik meg sok adatszakértő soft skillje, például a kritikai gondolkodás.
A cél az adatokban jelenlévő rejtett torzítások és változók felkutatása, amelyek első ránézésre vagy magas elemzés elvégzése után nem feltétlenül fedezhetők fel könnyen.
Egy dolgot figyelembe kell venni Simpson paradoxonával kapcsolatban, hogy az adatok túl sok összesítése hamarosan haszontalanná válhat, és elfogultsághoz vezethet. Másrészt, ha nem aggregáljuk az adatokat, akkor az adatok korlátozottak lehetnek az általuk közölt információkban és mögöttes mintákban.
A Simpson-féle paradoxon elkerülése érdekében alaposan át kell tekintenie adatait, és meg kell győződnie arról, hogy jól megérti az adott üzleti problémát.
Nisha Arya adattudós, szabadúszó műszaki író és közösségi menedzser a KDnuggets-nél. Különösen érdekli az adattudományi karriertanácsadás vagy oktatóanyagok, valamint elméleti alapú ismeretek nyújtása a Data Science területén. Azt is szeretné feltárni, hogy a mesterséges intelligencia milyen különböző módokon járulhat hozzá az emberi élet hosszú élettartamához. Szívesen tanuló, aki igyekszik bővíteni műszaki ismereteit és íráskészségét, miközben segít másoknak.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :is
- $ UP
- 35%
- a
- Rólunk
- egyetemi
- elfogadott
- Fiók
- pontos
- felvételt nyer
- tanács
- ellen
- összesítés
- Minden termék
- mindig
- elemzés
- Analitikai
- analitika
- és a
- bárki
- alkalmazások
- alkalmazott
- alkalmaz
- Alkalmazása
- VANNAK
- körül
- mesterséges
- mesterséges intelligencia
- AS
- At
- elkerülése érdekében
- vissza
- alapján
- BE
- válik
- hogy
- lent
- haszon
- Előnyök
- Berkeley
- BEST
- Túl
- előítélet
- Nagy
- bővül
- üzleti
- by
- TUD
- Karrier
- Okoz
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- kombinált
- hogyan
- közösség
- vállalat
- teljesen
- bonyolult
- megkötött
- következtetés
- megfontolás
- kritikai
- Jelenlegi
- dátum
- adatelemzés
- Adatelemzés
- adat-tudomány
- adattudós
- Döntéshozatal
- határozatok
- mélyebb
- osztály
- osztályok
- attól
- különböző
- eltűnik
- ne
- Rajzok
- könnyen
- hatás
- Hatékony
- bármelyik
- Mérnökök
- biztosítására
- biztosítása
- példa
- Elmagyarázza
- feltárása
- igazságos
- kedvez
- női
- Ábra
- Találjon
- megtalálása
- vezetéknév
- Első ránézésre
- összpontosított
- koncentrál
- összpontosítás
- A
- talált
- szabadúszó
- ból ből
- további
- nem
- jó
- diplomás
- Csoportok
- útmutató
- kéz
- Legyen
- tekintettel
- segít
- segít
- segít
- Rejtett
- elrejt
- Magas
- tart
- Hogyan
- How To
- azonban
- HTTPS
- emberi
- kép
- végrehajtási
- következményei
- fontosság
- javul
- in
- információ
- alapvetően
- Insight
- meglátások
- Intelligencia
- érdekelt
- bevezet
- Bevezetett
- intuíció
- IT
- ITS
- jpg
- KDnuggets
- Lelkes
- Ismer
- tudás
- ismert
- hiány
- per
- tanuló
- tanulás
- tanuló mérnökök
- szint
- élet
- korlátozások
- Korlátozott
- hosszú élet
- néz
- keres
- Sok
- Elő/Utó
- gép
- gépi tanulás
- csinál
- menedzser
- eszközök
- több
- név
- természetesen
- Szükség
- of
- on
- ONE
- nyit
- Lehetőségek
- szemben
- Más
- Egyéb
- teljesítmény
- átfogó
- Paradoxon
- különösen
- minták
- százalék
- teljesít
- időszakok
- kimerül
- Plató
- Platón adatintelligencia
- PlatoData
- Népszerű
- előkészített
- be
- Probléma
- folyamat
- tehetséges alkalmazottal
- program
- projektek
- bizonyul
- amely
- tesz
- igazi
- való Világ
- real-time
- valós idejű adatok
- Valóság
- megmaradó
- képviselet
- kötelező
- korlátozó
- megfordítás
- fordított
- Kritika
- Emelkedik
- s
- azonos
- forgatókönyvek
- Iskola
- Tudomány
- Tudós
- tudósok
- látás
- keres
- számos
- rövid
- Műsorok
- jelentős
- szkeptikus
- jártasság
- készségek
- kisebb
- Puha
- Nemsokára
- különleges
- költ
- kezdet
- statisztikai
- Történet
- Tanulmány
- ilyen
- elegendő
- Vesz
- bevétel
- csapat
- csapat
- tech
- Műszaki
- hogy
- A
- az információ
- azok
- maguk
- ebből adódóan
- Ezek
- dolog
- Gondolkodás
- alaposan
- Keresztül
- idő
- nak nek
- is
- tendencia
- Trends
- igaz
- oktatóanyagok
- mögöttes
- megért
- megértés
- us
- használ
- változók
- Út..
- módon
- Mit
- ami
- Míg
- Wikipedia
- lesz
- kívánságait
- val vel
- nélkül
- Női
- dolgozó
- világ
- lenne
- író
- írás
- Rossz
- év
- A te
- magad
- zephyrnet