Bilde av forfatter
Dataforskere, dataingeniører og maskinlæringsingeniører bruker mye av tiden sin på å se på data og finne statistiske tegninger eller konklusjoner fra dem. Men en stor ting som er en nødvendig ferdighet for disse fagfolkene og alle som ser på data, er å ha en god intuisjon for den virkelige verden.
Data har flere variabler som du kan ta i betraktning, men det er godt å merke seg at de produserer en endelig dimensjonal representasjon. Det er her du må se utover dataene og finne ut hva den skjulte virkeligheten er og hvordan den kan brukes på datasettet.
Simpsons paradoks beviser for oss viktigheten av å være skeptisk når du tolker dataene dine, og sikre at du bruker den virkelige verden – uten å begrense deg selv fra å se dem fra et datasynspunkt.
I 1972 introduserte Colin R. Blyth navnet Simpsons paradoks, også kjent som Simpsons reversering, Yule-Simpson-effekten, amalgamasjonsparadoks eller reverseringsparadoks.
Simpsons paradoks er når en trend eller utgang er tilstede når dataene settes inn i grupper som enten reverserer eller forsvinner når dataene kombineres. Det er et statistisk paradoks der den kan trekke to motsatte konklusjoner fra samme data, avhengig av hvordan dataene er gruppert.
UC Berkeley og Simpsons paradoks
Et populært eksempel på Simpsons paradoks er UC Berkeleys studie om kjønnsskjevhet ved opptak på forskerskole. I 1973, ved starten av studieåret, tok UC Berkeleys forskerskole inn rundt 44% mannlige søknader og 35% kvinnelige søkere. Skolen fryktet at de var oppe mot et søksmål, forberedte seg derfor på dette ved å be Peter Bickel, en statistiker om å se på dataene.
Det han fant ut var at det var en statistisk signifikant kjønnsskjevhet som var til fordel for kvinner i 4/6 avdelinger, og at det ikke var noen signifikant kjønnsskjevhet i de resterende 2. Teamets funn viste at kvinnene søkte avdelinger som hadde en samlet mindre andel søkere.
I Simpsons Paradox må du ta hensyn til virkelige scenarier og variabler som kan skjules og ikke lett tolkes gjennom data. I dette eksemplet er den skjulte variabelen at flere kvinner søkte på en bestemt avdeling. Dette påvirker den totale andelen aksepterte søkere, på en måte som viser den omvendte trenden som opprinnelig eksisterte i dataene.
Teamet konkluderte da med at produksjonen deres på dataene endret seg når de tok det i betraktning når de delte skolen inn i avdelinger.
Bildet nedenfor forklarer hvordan trendene snur når dataene grupperes:
Bilde av Wikipedia
Simpsons paradoks kan gjøre arbeidet med data mer komplekst og gjøre beslutningsprosessen mye vanskeligere.
Hvis du begynner å resample dataene dine annerledes, vil du komme ut med andre konklusjoner. Dette vil naturligvis gjøre det vanskeligere for deg å velge én spesifikk nøyaktig konklusjon for å trekke ytterligere innsikt. Dette betyr at teamet må finne den beste konklusjonen som har en rettferdig representasjon av dataene.
Når vi jobber med datarelaterte prosjekter, er vi ofte fokusert på dataene og prøver å tolke historien den prøver å fortelle oss. Men hvis vi bruker kunnskap fra den virkelige verden, vil det fortelle oss en helt annen historie.
Å forstå viktigheten av dette åpner for flere muligheter for oss til å se dypere inn i dataene og utføre tilstrekkelig analyse for å hjelpe i beslutningsprosessen. Simpsons paradoks fokuserer på hvordan mangel på tilstrekkelig analytisk innsikt og generell prosjektkunnskap kan villede oss og ta feil beslutninger.
For eksempel ser vi en økning i bruken av sanntidsdataanalyse. Flere og flere team implementerer dette for å hjelpe med å oppdage mønstre, og bruker denne innsikten til å ta beslutninger i korte perioder. Å jobbe med sanntidsdataanalyse er effektivt når du fokuserer på hvordan du kan forbedre et selskap basert på gjeldende sanntidsdata. Imidlertid kan disse korte periodene forårsake villedende informasjon og skjule den generelle sanne trenden som dataene viser.
Feil dataanalyse kan holde et selskap tilbake. Og vi vet alle at feil beslutninger alltid holder et selskap tilbake. Ved å ta hensyn til Simpsons paradoks er det derfor en fordel for selskapet å forstå begrensningene til dataene, hva som driver dataene, og de forskjellige variablene og holder bias lav.
Simpsons paradoks hjelper med å minne fagfolk som arbeider med data om viktigheten av å forstå data og deres nivå av dataintuisjon. Dette er når mye av datafagfolks myke ferdigheter vil presentere seg, for eksempel kritisk tenkning.
Målet er å se etter skjulte skjevheter og variabler som er tilstede i dataene, som kanskje ikke er lett å oppdage ved første titt eller når høy analyse er utført.
En ting å ta i betraktning om Simpsons paradoks er at for mye aggregering av data snart kan bli ubrukelig og begynne å introdusere skjevhet. Men på den annen side, hvis vi ikke samler dataene, kan dataene være begrenset i informasjonen og de underliggende mønstrene de kan fortelle oss.
For å unngå Simpsons paradoks, må du gjennomgå dataene dine grundig og sikre at du har en god forståelse av forretningsproblemet.
Nisha Arya er dataforsker, frilans teknisk skribent og samfunnsansvarlig i KDnuggets. Hun er spesielt interessert i å gi Data Science karriereråd eller veiledninger og teoribasert kunnskap rundt Data Science. Hun ønsker også å utforske de forskjellige måtene kunstig intelligens er/kan være til nytte for menneskets levetid. En ivrig elev som søker å utvide sine tekniske kunnskaper og skriveferdigheter, samtidig som hun hjelper til med å veilede andre.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :er
- $OPP
- 35%
- a
- Om oss
- akademisk
- akseptert
- Logg inn
- nøyaktig
- innrømmet
- råd
- mot
- aggregering
- Alle
- alltid
- analyse
- Analytisk
- analytics
- og
- noen
- søknader
- anvendt
- Påfør
- påføring
- ER
- rundt
- kunstig
- kunstig intelligens
- AS
- At
- unngå
- tilbake
- basert
- BE
- bli
- være
- under
- nytte
- Fordeler
- Berkeley
- BEST
- Beyond
- Bias
- Stor
- utvide
- virksomhet
- by
- CAN
- Karriere
- Årsak
- Velg
- kombinert
- Kom
- samfunnet
- Selskapet
- helt
- komplekse
- konkluderte
- konklusjon
- hensyn
- kritisk
- Gjeldende
- dato
- dataanalyse
- Data Analytics
- datavitenskap
- dataforsker
- Beslutningstaking
- avgjørelser
- dypere
- Avdeling
- avdelinger
- avhengig
- forskjellig
- forsvinne
- ikke
- Tegninger
- lett
- effekt
- Effektiv
- enten
- Ingeniører
- sikre
- sikrer
- eksempel
- forklarer
- utforske
- rettferdig
- favorisere
- hunn
- Figur
- Finn
- finne
- Først
- Første øyekast
- fokuserte
- fokuserer
- fokusering
- Til
- funnet
- freelance
- fra
- videre
- Kjønn
- god
- oppgradere
- Gruppens
- veilede
- hånd
- Ha
- å ha
- hjelpe
- hjelpe
- hjelper
- skjult
- Gjemme seg
- Høy
- hold
- Hvordan
- Hvordan
- Men
- HTTPS
- menneskelig
- bilde
- implementere
- implikasjoner
- betydning
- forbedre
- in
- informasjon
- i utgangspunktet
- innsikt
- innsikt
- Intelligens
- interessert
- introdusere
- introdusert
- intuisjon
- IT
- DET ER
- jpg
- KDnuggets
- Keen
- Vet
- kunnskap
- kjent
- maling
- Søksmålet
- lærer
- læring
- lærende ingeniører
- Nivå
- Life
- begrensninger
- Begrenset
- levetid
- Se
- ser
- Lot
- Lav
- maskin
- maskinlæring
- gjøre
- leder
- midler
- mer
- navn
- naturlig
- Trenger
- of
- on
- ONE
- åpner
- Muligheter
- motsatt
- Annen
- andre
- produksjon
- samlet
- Paradox
- spesielt
- mønstre
- prosent
- utføre
- perioder
- Peter
- plato
- Platon Data Intelligence
- PlatonData
- Populær
- forberedt
- presentere
- Problem
- prosess
- fagfolk
- prosjekt
- prosjekter
- beviser
- gi
- sette
- ekte
- virkelige verden
- sanntids
- sanntidsdata
- Reality
- gjenværende
- representasjon
- påkrevd
- begrense
- tilbakeføring
- reversere
- anmeldelse
- Rise
- s
- samme
- scenarier
- Skole
- Vitenskap
- Forsker
- forskere
- se
- søker
- flere
- Kort
- Viser
- signifikant
- skeptisk
- ferdighet
- ferdigheter
- mindre
- Soft
- Snart
- spesifikk
- bruke
- Begynn
- statistisk
- Story
- Studer
- slik
- tilstrekkelig
- Ta
- ta
- lag
- lag
- tech
- Teknisk
- Det
- De
- informasjonen
- deres
- seg
- derfor
- Disse
- ting
- tenker
- grundig
- Gjennom
- tid
- til
- også
- Trend
- Trender
- sant
- tutorials
- underliggende
- forstå
- forståelse
- us
- bruke
- variabler
- Vei..
- måter
- Hva
- hvilken
- Mens
- Wikipedia
- vil
- ønsker
- med
- uten
- Dame
- arbeid
- verden
- ville
- forfatter
- skriving
- Feil
- år
- Din
- deg selv
- zephyrnet