Billede af forfatter
Dataforskere, dataingeniører og maskinlæringsingeniører bruger meget af deres tid på at kigge på data og finde statistiske tegninger eller konklusioner fra dem. Men en stor ting, der er en nødvendig færdighed for disse fagfolk og alle, der ser på data, er at have en god intuition for den virkelige verden.
Data har flere variabler, som du kan tage med i overvejelserne, men det er godt at bemærke, at det producerer en endelig dimensionel repræsentation. Det er her, du bliver nødt til at se ud over dataene og finde ud af, hvad den skjulte virkelighed er, og hvordan den kan anvendes på datasættet.
Simpsons paradoks beviser for os vigtigheden af at være skeptisk, når du fortolker dine data, og sikre, at du anvender den virkelige verden – uden at begrænse dig selv i at se det fra et datasynspunkt.
I 1972 introducerede Colin R. Blyth navnet Simpsons paradoks, også kendt som Simpsons vending, Yule-Simpson-effekten, sammenlægningsparadoks eller vendingsparadoks.
Simpsons paradoks er, når en tendens eller output er til stede, når dataene sættes i grupper, der enten vender eller forsvinder, når dataene kombineres. Det er et statistisk paradoks, hvor det kan drage to modsatrettede konklusioner ud fra de samme data, afhængig af hvordan data er grupperet.
UC Berkeley og Simpsons paradoks
Et populært eksempel på Simpsons paradoks er UC Berkeleys undersøgelse om kønsbias ved optagelse på kandidatskoler. I 1973, ved begyndelsen af det akademiske år, optog UC Berkeleys ph.d.-skole omkring 44% mandlige ansøgninger og 35% kvindelige ansøgere. Skolen frygtede, at de var oppe imod en retssag, og forberedte sig derfor på dette ved at bede statistiker Peter Bickel om at se på dataene.
Det han fandt ud af var, at der var en statistisk signifikant kønsbias, der var til fordel for kvinder i 4/6 afdelinger, og at der ikke var nogen signifikant kønsbias i de resterende 2. Holdets resultater viste, at kvinderne søgte afdelinger, der havde en samlet mindre procentdel af ansøgere.
I Simpsons Paradox skal du tage højde for scenarier og variabler fra den virkelige verden, som kan skjules og ikke let fortolkes gennem data. I dette eksempel er den skjulte variabel, at flere kvinder søgte til en bestemt afdeling. Dette påvirker den samlede procentdel af accepterede ansøgere på en måde, der viser den omvendte tendens, der oprindeligt fandtes i dataene.
Holdet konkluderede derefter, at deres output på dataene ændrede sig, da de tog det i betragtning, da de opdelte skolen i afdelinger.
Billedet nedenfor forklarer, hvordan tendenserne vender, når dataene grupperes:
Billede af Wikipedia
Simpsons paradoks kan gøre arbejdet med data mere komplekst og gøre beslutningsprocessen meget sværere.
Hvis du begynder at gensample dine data anderledes, vil du komme ud med forskellige konklusioner. Dette vil naturligvis gøre det sværere for dig at vælge én specifik præcis konklusion for at drage yderligere indsigt. Det betyder, at teamet skal finde den bedste konklusion, der har en retfærdig repræsentation af dataene.
Når vi arbejder med data-relaterede projekter, er vi ofte fokuserede på dataene og forsøger at fortolke den historie, den forsøger at fortælle os. Men hvis vi anvender viden fra den virkelige verden, ville det fortælle os en helt anden historie.
At forstå vigtigheden af dette åbner op for flere muligheder for os at se dybere ind i dataene og udføre tilstrækkelige analyser til at hjælpe i beslutningsprocessen. Simpsons paradoks fokuserer på, hvordan mangel på tilstrækkelig analytisk indsigt og overordnet projektviden kan vildlede os og træffe forkerte beslutninger.
For eksempel ser vi en stigning i brugen af dataanalyse i realtid. Flere og flere teams implementerer dette for at hjælpe med at opdage mønstre og bruger denne indsigt til at træffe beslutninger i korte perioder. At arbejde med dataanalyse i realtid er effektivt, når du fokuserer på, hvordan du kan forbedre en virksomhed baseret på de aktuelle realtidsdata. Disse korte perioder kan dog forårsage vildledende information og skjule den overordnede sande tendens, som dataene viser.
Den forkerte dataanalyse kan holde en virksomhed tilbage. Og vi ved alle, at forkerte beslutninger altid holder en virksomhed tilbage. At tage Simpsons paradoks i betragtning gavner derfor virksomheden til at forstå dataens begrænsninger, hvad der driver dataene og de forskellige variabler og holder bias lav.
Simpsons Paradox hjælper med at minde fagfolk, der arbejder med data, om vigtigheden af at forstå data og deres niveau af dataintuition. Det er her, en masse dataprofessionelles bløde færdigheder vil præsentere sig selv, såsom kritisk tænkning.
Målet er at lede efter skjulte skævheder og variabler, der er til stede i dataene, som måske ikke er let at finde ved første kig, eller når der er udført høj analyse.
En ting at tage i betragtning ved Simpsons paradoks er, at for meget aggregering af data hurtigt kan blive ubrugelig og begynde at introducere bias. Men på den anden side, hvis vi ikke samler dataene, kan dataene være begrænset i den information og de underliggende mønstre, de kan fortælle os.
For at undgå Simpsons paradoks bliver du nødt til at gennemgå dine data grundigt og sikre, at du har en god forståelse af det aktuelle forretningsproblem.
Nisha Arya er dataforsker, freelance teknisk skribent og Community Manager hos KDnuggets. Hun er særligt interesseret i at give Data Science karriererådgivning eller tutorials og teoribaseret viden omkring Data Science. Hun ønsker også at udforske de forskellige måder, kunstig intelligens er/kan gavne menneskets levetid. En ivrig lærende, der søger at udvide sin tekniske viden og skrivefærdigheder, samtidig med at hun hjælper med at vejlede andre.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
- Kilde: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :er
- $OP
- 35 %
- a
- Om
- akademisk
- accepteret
- Konto
- præcis
- indrømmede
- rådgivning
- mod
- aggregering
- Alle
- altid
- analyse
- Analytisk
- analytics
- ,
- nogen
- applikationer
- anvendt
- Indløs
- Anvendelse
- ER
- omkring
- kunstig
- kunstig intelligens
- AS
- At
- undgå
- tilbage
- baseret
- BE
- bliver
- være
- jf. nedenstående
- gavner det dig
- fordele
- Berkeley
- BEDSTE
- Beyond
- skævhed
- Big
- udvide
- virksomhed
- by
- CAN
- Karriere
- Årsag
- Vælg
- kombineret
- Kom
- samfund
- selskab
- fuldstændig
- komplekse
- indgået
- konklusion
- overvejelse
- kritisk
- Nuværende
- data
- dataanalyse
- Dataanalyse
- datalogi
- dataforsker
- Beslutningstagning
- afgørelser
- dybere
- Afdeling
- afdelinger
- Afhængigt
- forskellige
- forsvinder
- Dont
- Tegninger
- nemt
- effekt
- Effektiv
- enten
- Ingeniører
- sikre
- sikring
- eksempel
- Forklarer
- udforske
- retfærdig
- favorisere
- kvinde
- Figur
- Finde
- finde
- Fornavn
- Første kig
- fokuserede
- fokuserer
- fokusering
- Til
- fundet
- freelance
- fra
- yderligere
- Køn
- godt
- eksamen
- Gruppens
- vejlede
- hånd
- Have
- have
- hjælpe
- hjælpe
- hjælper
- Skjult
- Skjule
- Høj
- hold
- Hvordan
- How To
- Men
- HTTPS
- menneskelig
- billede
- gennemføre
- implikationer
- betydning
- Forbedre
- in
- oplysninger
- i første omgang
- indsigt
- indsigt
- Intelligens
- interesseret
- indføre
- introduceret
- intuition
- IT
- ITS
- jpg
- KDnuggets
- Keen
- Kend
- viden
- kendt
- Mangel
- retssag
- elev
- læring
- lærende ingeniører
- Niveau
- Livet
- begrænsninger
- Limited
- levetid
- Se
- leder
- Lot
- Lav
- maskine
- machine learning
- lave
- leder
- midler
- mere
- navn
- naturligt
- Behov
- of
- on
- ONE
- åbner
- Muligheder
- modsat
- Andet
- Andre
- output
- samlet
- Paradox
- især
- mønstre
- procentdel
- udføre
- perioder
- Peter
- plato
- Platon Data Intelligence
- PlatoData
- Populær
- forberedt
- præsentere
- Problem
- behandle
- professionelle partnere
- projekt
- projekter
- beviser
- leverer
- sætte
- ægte
- virkelige verden
- realtid
- data i realtid
- Reality
- resterende
- repræsentation
- påkrævet
- begrænser
- Tilbageførsel
- vende
- gennemgå
- Rise
- s
- samme
- scenarier
- Skole
- Videnskab
- Videnskabsmand
- forskere
- se
- søger
- flere
- Kort
- Shows
- signifikant
- skeptisk
- dygtighed
- færdigheder
- mindre
- Soft
- Snart
- specifikke
- tilbringe
- starte
- statistiske
- Story
- Studere
- sådan
- tilstrækkeligt
- Tag
- tager
- hold
- hold
- tech
- Teknisk
- at
- oplysninger
- deres
- selv
- derfor
- Disse
- ting
- Tænker
- grundigt
- Gennem
- tid
- til
- også
- Trend
- Tendenser
- sand
- tutorials
- underliggende
- forstå
- forståelse
- us
- brug
- variabler
- Vej..
- måder
- Hvad
- som
- Mens
- Wikipedia
- vilje
- ønsker
- med
- uden
- Dame
- arbejder
- world
- ville
- forfatter
- skrivning
- Forkert
- år
- Din
- dig selv
- zephyrnet