Slika avtorja
Podatkovni znanstveniki, podatkovni inženirji in inženirji strojnega učenja porabijo veliko časa za pregledovanje podatkov in iskanje statističnih risb ali zaključkov iz njih. Toda velika stvar, ki je zahtevana veščina za te strokovnjake in vsakogar, ki pregleduje podatke, je dobra intuicija za resnični svet.
Podatki imajo več spremenljivk, ki jih lahko upoštevate, vendar je dobro vedeti, da ustvarijo končnodimenzionalno predstavitev. Tukaj boste morali videti dlje od podatkov in ugotoviti, kaj je skrita resničnost in kako jo je mogoče uporabiti v naboru podatkov.
Simpsonov paradoks nam dokazuje, kako pomembno je biti skeptičen pri razlagi svojih podatkov in zagotoviti, da boste uporabili resnični svet – ne da bi se omejevali, da bi ga videli z vidika podatkov.
Leta 1972 je Colin R. Blyth uvedel ime Simpsonov paradoks, znan tudi kot Simpsonov obrat, Yule-Simpsonov učinek, amalgamacijski paradoks ali paradoks obrata.
Simpsonov paradoks je, ko je trend ali rezultat prisoten, ko so podatki razvrščeni v skupine, ki se obrnejo ali izginejo, ko se podatki združijo. Gre za statistični paradoks, kjer lahko iz istih podatkov potegne dva nasprotna zaključka, odvisno od tega, kako so podatki razvrščeni.
UC Berkeley in Simpsonov paradoks
Priljubljen primer Simpsonovega paradoksa je študija UC Berkeley o spolni pristranskosti pri sprejemu v podiplomske šole. Leta 1973, na začetku študijskega leta, je podiplomska šola UC Berkeley sprejela približno 44 % moških prijav in 35 % žensk. Šola se je bala, da jim grozi tožba, zato so se na to pripravile tako, da so zaprosile Petra Bickela, statistika, da si ogleda podatke.
Ugotovil je, da obstaja statistično značilna pristranskost glede spola v korist žensk v 4/6 oddelkih in da v preostalih 2 ni bilo pomembne pristranskosti glede na spol. Ugotovitve skupine so pokazale, da so se ženske prijavile na oddelke, ki so imeli skupno manjši odstotek prijavljenih.
V Simpsonovem paradoksu morate upoštevati realne scenarije in spremenljivke, ki jih je mogoče skriti in jih je težko interpretirati s podatki. V tem primeru je skrita spremenljivka ta, da se je za določen oddelek prijavilo več žensk. To vpliva na skupni odstotek sprejetih prosilcev na način, ki kaže obratni trend, ki je na začetku obstajal v podatkih.
Skupina je nato ugotovila, da se je njihov rezultat podatkov spremenil, ko so jih upoštevali pri razdelitvi šole na oddelke.
Spodnja slika pojasnjuje, kako se trendi obrnejo, ko so podatki združeni:
Slike, ki jih Wikipedia
Simpsonov paradoks lahko naredi delo s podatki bolj zapleteno in oteži proces odločanja.
Če začnete svoje podatke ponovno vzorčiti drugače, boste prišli do drugačnih zaključkov. Zaradi tega boste seveda težje izbrali en točno določen zaključek, da bi dobili nadaljnje vpoglede. To pomeni, da bo morala ekipa najti najboljši zaključek, ki bo pošteno predstavljal podatke.
Pri delu s projekti, povezanimi s podatki, smo pogosto osredotočeni na podatke in poskušamo interpretirati zgodbo, ki nam jo poskušajo povedati. Če pa uporabimo znanje iz resničnega sveta, bi nam to povedalo popolnoma drugačno zgodbo.
Razumevanje pomembnosti tega nam odpira več priložnosti, da se poglobimo v podatke in izvedemo zadostno analizo, ki nam pomaga pri procesu odločanja. Simpsonov paradoks se osredotoča na to, kako nas lahko pomanjkanje zadostnega analitičnega vpogleda in splošnega znanja o projektu zavede in sprejema napačne odločitve.
Na primer, opažamo porast uporabe analitike podatkov v realnem času. Vse več ekip to uporablja za pomoč pri odkrivanju vzorcev in uporabo tega vpogleda za sprejemanje odločitev v kratkih obdobjih. Delo z analizo podatkov v realnem času je učinkovito, ko se osredotočate na to, kako izboljšati podjetje na podlagi trenutnih podatkov v realnem času. Vendar pa lahko ta kratka obdobja povzročijo zavajajoče informacije in prikrijejo splošni pravi trend, ki ga prikazujejo podatki.
Napačna analiza podatkov lahko zadrži podjetje. In vsi vemo, da napačne odločitve vedno zadržijo podjetje. Zato upoštevanje Simpsonovega paradoksa koristi podjetju, da razume omejitve podatkov, kaj poganja podatke in različne spremenljivke ter ohranja nizko pristranskost.
Simpsonov paradoks pomaga spomniti strokovnjake, ki delajo s podatki, o pomembnosti razumevanja podatkov in njihovi ravni podatkovne intuicije. Takrat se bo predstavilo veliko mehkih veščin podatkovnih strokovnjakov, kot je kritično razmišljanje.
Cilj je poiskati skrite pristranskosti in spremenljivke, ki so prisotne v podatkih, ki jih morda ni zlahka odkriti na prvi pogled ali po izvedbi visoke analize.
Ena stvar, ki jo je treba upoštevati pri Simpsonovem paradoksu, je, da lahko preveč združevanja podatkov kmalu postane neuporabno in začne povzročati pristranskost. Toda po drugi strani, če podatkov ne združimo, so lahko podatki omejeni glede informacij in osnovnih vzorcev, ki nam jih lahko povedo.
Da bi se izognili Simpsonovemu paradoksu, boste morali temeljito pregledati svoje podatke in se prepričati, da dobro razumete poslovni problem.
Nisha Arya je podatkovni znanstvenik, samostojni tehnični pisec in vodja skupnosti pri KDnuggets. Še posebej jo zanima zagotavljanje kariernih nasvetov ali vadnic o podatkovni znanosti in na teoriji temelječega znanja o podatkovni znanosti. Prav tako želi raziskati različne načine, na katere umetna inteligenca koristi/lahko prispeva k dolgoživosti človeškega življenja. Zavzeta učenka, ki želi razširiti svoje tehnično znanje in pisne sposobnosti, hkrati pa pomaga usmerjati druge.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
- vir: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- : je
- $GOR
- 35%
- a
- O meni
- akademsko
- sprejeta
- Račun
- natančna
- priznal
- nasveti
- proti
- združevanje
- vsi
- vedno
- Analiza
- Analitično
- analitika
- in
- kdo
- aplikacije
- uporabna
- Uporabi
- Uporaba
- SE
- okoli
- umetni
- Umetna inteligenca
- AS
- At
- izogniti
- nazaj
- temeljijo
- BE
- postanejo
- počutje
- spodaj
- koristi
- Prednosti
- Berkeley
- BEST
- Poleg
- pristranskosti
- Big
- razširiti
- poslovni
- by
- CAN
- Kariera
- Vzrok
- Izberite
- kombinirani
- kako
- skupnost
- podjetje
- popolnoma
- kompleksna
- sklenjene
- Sklenitev
- premislek
- kritično
- Trenutna
- datum
- Analiza podatkov
- Podatkovna analiza
- znanost o podatkih
- podatkovni znanstvenik
- Odločanje
- odločitve
- globlje
- Oddelek
- oddelki
- Odvisno
- drugačen
- izginejo
- dont
- Risbe
- enostavno
- učinek
- Učinkovito
- bodisi
- Inženirji
- zagotovitev
- zagotoviti
- Primer
- Pojasni
- raziskuje
- sejem
- prednost
- ženska
- Slika
- Najdi
- iskanje
- prva
- Prvi pogled
- osredotočena
- Osredotoča
- osredotoča
- za
- je pokazala,
- svobodni
- iz
- nadalje
- Spol
- dobro
- diplomiral
- Skupine
- vodi
- strani
- Imajo
- ob
- pomoč
- pomoč
- Pomaga
- skrita
- Skrij
- visoka
- držite
- Kako
- Kako
- Vendar
- HTTPS
- človeškega
- slika
- izvajanja
- posledice
- Pomembnost
- izboljšanje
- in
- Podatki
- na začetku
- vpogled
- vpogledi
- Intelligence
- zainteresirani
- uvesti
- Uvedeno
- intuicija
- IT
- ITS
- jpg
- KDnuggets
- Keen
- Vedite
- znanje
- znano
- Pomanjkanje
- Tožbo
- učenec
- učenje
- učni inženirji
- Stopnja
- življenje
- omejitve
- Limited
- dolgoživost
- Poglej
- si
- Sklop
- nizka
- stroj
- strojno učenje
- Znamka
- upravitelj
- pomeni
- več
- Ime
- seveda
- Nimate
- of
- on
- ONE
- Odpre
- Priložnosti
- Nasprotno
- Ostalo
- drugi
- izhod
- Splošni
- Paradox
- zlasti
- vzorci
- odstotek
- opravlja
- obdobja
- Peter
- platon
- Platonova podatkovna inteligenca
- PlatoData
- Popular
- pripravljeni
- predstaviti
- problem
- Postopek
- strokovnjaki
- Projekt
- projekti
- dokazuje
- zagotavljanje
- dal
- pravo
- resnični svet
- v realnem času
- podatki v realnem času
- Reality
- Preostalih
- zastopanje
- obvezna
- omejujoč
- Razveljavitev
- nazaj
- pregleda
- Rise
- s
- Enako
- scenariji
- <span style="color: #f7f7f7;">Šola</span>
- Znanost
- Znanstvenik
- Znanstveniki
- videnje
- iskanju
- več
- Kratke Hlače
- Razstave
- pomemben
- skeptičen
- spretnost
- spretnosti
- manj
- Soft
- Kmalu
- specifična
- preživeti
- Začetek
- Statistično
- Zgodba
- študija
- taka
- dovolj
- Bodite
- ob
- skupina
- Skupine
- tech
- tehnični
- da
- O
- informacije
- njihove
- sami
- zato
- te
- stvar
- Razmišljanje
- temeljito
- skozi
- čas
- do
- tudi
- Trend
- Trends
- Res
- vaje
- osnovni
- razumeli
- razumevanje
- us
- uporaba
- spremenljivke
- način..
- načini
- Kaj
- ki
- Medtem ko
- Wikipedia
- bo
- želje
- z
- brez
- Ženske
- deluje
- svet
- bi
- Pisatelj
- pisanje
- Napačen
- leto
- Vaša rutina za
- sami
- zefirnet