Bild av författare
Dataforskare, dataingenjörer och maskininlärningsingenjörer spenderar mycket av sin tid på att titta på data och hitta statistiska ritningar eller slutsatser från dem. Men en stor sak som är en nödvändig färdighet för dessa proffs och alla som tittar på data är att ha en bra intuition för den verkliga världen.
Data har flera variabler som du kan ta hänsyn till, men det är bra att notera att det producerar en ändlig dimensionell representation. Det är här du måste se bortom data och ta reda på vad den dolda verkligheten är och hur den kan tillämpas på datamängden.
Simpsons paradox bevisar för oss vikten av att vara skeptisk när du tolkar dina data, och se till att du tillämpar den verkliga världen – utan att begränsa dig själv från att se den ur datasynpunkt.
1972 introducerade Colin R. Blyth namnet Simpsons paradox, även känd som Simpsons reversering, Yule-Simpson-effekten, sammanslagningsparadox eller reverseringsparadox.
Simpsons paradox är när en trend eller utdata finns när data sätts in i grupper som antingen vänder eller försvinner när data kombineras. Det är en statistisk paradox där den kan dra två motsatta slutsatser från samma data, beroende på hur data grupperas.
UC Berkeley och Simpsons paradox
Ett populärt exempel på Simpsons paradox är UC Berkeleys studie om könsfördomar vid antagning till forskarskolor. 1973, i början av läsåret, tog UC Berkeleys forskarskola emot cirka 44 % manliga ansökningar och 35 % kvinnliga sökande. Skolan befarade att de var uppe i en stämningsansökan och förberedde sig därför på detta genom att be Peter Bickel, en statistiker, att ta en titt på uppgifterna.
Vad han fick reda på var att det fanns en statistiskt signifikant könsbias som var till förmån för kvinnor på 4/6 avdelningar, och att det inte fanns någon signifikant könsbias i de återstående 2. Teamets resultat visade att kvinnorna sökte till avdelningar som hade en övergripande mindre andel sökande.
I Simpsons Paradox måste du ta hänsyn till verkliga scenarier och variabler som kan döljas och inte lätt tolkas genom data. I det här exemplet är den dolda variabeln att fler kvinnor sökte till en specifik avdelning. Detta påverkar den totala andelen godkända sökande, på ett sätt som visar den omvända trenden som från början fanns i data.
Teamet drog då slutsatsen att deras utdata på data ändrades när de tog hänsyn till det när de delade upp skolan i avdelningar.
Bilden nedan förklarar hur trenderna vänder när data grupperas:
Bild av wikipedia
Simpsons paradox kan göra arbetet med data mer komplext och göra beslutsprocessen mycket svårare.
Om du börjar ta om dina data på ett annat sätt kommer du att komma ut med andra slutsatser. Detta kommer naturligtvis att göra det svårare för dig att välja en specifik korrekt slutsats för att dra ytterligare insikter. Detta innebär att teamet måste hitta den bästa slutsatsen som har en rättvis representation av data.
När vi arbetar med datarelaterade projekt är vi ofta fokuserade på datan och försöker tolka historien som den försöker berätta. Men om vi tillämpar verklig kunskap skulle det berätta en helt annan historia.
Att förstå vikten av detta öppnar upp fler möjligheter för oss att titta djupare in i data och utföra tillräcklig analys för att hjälpa oss i beslutsprocessen. Simpsons Paradox fokuserar på hur brist på tillräcklig analytisk insikt och övergripande projektkunskap kan vilseleda oss och fatta felaktiga beslut.
Till exempel ser vi en ökning av användningen av dataanalys i realtid. Fler och fler team implementerar detta för att hjälpa till att upptäcka mönster och använder denna insikt för att fatta beslut under korta perioder. Att arbeta med realtidsdataanalys är effektivt när man fokuserar på hur man kan förbättra ett företag baserat på aktuell realtidsdata. Dessa korta perioder kan dock orsaka vilseledande information och dölja den övergripande sanna trenden som data visar.
Fel dataanalys kan hålla ett företag tillbaka. Och vi vet alla att felaktiga beslut alltid håller ett företag tillbaka. Att ta hänsyn till Simpsons paradox gynnar därför företaget att förstå begränsningarna för data, vad som driver data, och de olika variablerna och håller bias låg.
Simpsons paradox hjälper yrkesverksamma som arbetar med data att påminna om vikten av att förstå data och deras nivå av dataintuition. Det är då många dataproffss mjuka färdigheter kommer att presentera sig, till exempel kritiskt tänkande.
Syftet är att leta efter dolda fördomar och variabler som finns i data, som kanske inte är lätta att upptäcka vid första titt eller när hög analys har utförts.
En sak att ta hänsyn till när det gäller Simpsons paradox är att för mycket aggregering av data snart kan bli värdelös och börja introducera partiskhet. Men å andra sidan, om vi inte aggregerar data, kan data begränsas i den information och underliggande mönster som den kan berätta för oss.
För att undvika Simpsons paradox måste du granska dina data noggrant och se till att du har en god förståelse för affärsproblemet.
Nisha Arya är en datavetare, frilansande teknisk skribent och Community Manager på KDnuggets. Hon är särskilt intresserad av att ge Data Science karriärråd eller handledning och teoribaserad kunskap kring Data Science. Hon vill också utforska de olika sätten artificiell intelligens är/kan gynna människans livslängd. En angelägen lärande som vill bredda sina tekniska kunskaper och skrivförmåga, samtidigt som hon hjälper andra att vägleda.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Källa: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :är
- $UPP
- 35%
- a
- Om oss
- akademiska
- accepterade
- Konto
- exakt
- medgav
- rådgivning
- mot
- aggregation
- Alla
- alltid
- analys
- Analytisk
- analytics
- och
- någon
- tillämpningar
- tillämpas
- Ansök
- Tillämpa
- ÄR
- runt
- konstgjord
- artificiell intelligens
- AS
- At
- undvika
- tillbaka
- baserat
- BE
- blir
- Där vi får lov att vara utan att konstant prestera,
- nedan
- fördel
- Fördelarna
- Berkeley
- BÄST
- Bortom
- förspänning
- Stor
- bredda
- företag
- by
- KAN
- Karriär
- Orsak
- Välja
- kombinerad
- komma
- samfundet
- företag
- fullständigt
- komplex
- ingås
- slutsats
- övervägande
- kritisk
- Aktuella
- datum
- dataanalys
- Data Analytics
- datavetenskap
- datavetare
- Beslutsfattande
- beslut
- djupare
- Avdelning
- avdelningar
- beroende
- olika
- försvinna
- inte
- Ritningar
- lätt
- effekt
- Effektiv
- antingen
- Ingenjörer
- säkerställa
- säkerställa
- exempel
- Förklarar
- utforska
- verkligt
- gynna
- kvinna
- Figur
- hitta
- finna
- Förnamn
- First Look
- fokuserade
- fokuserar
- fokusering
- För
- hittade
- frilans
- från
- ytterligare
- Kön
- god
- uppgradera
- Gruppens
- styra
- sidan
- Har
- har
- hjälpa
- hjälpa
- hjälper
- dold
- Dölja
- Hög
- hålla
- Hur ser din drömresa ut
- How To
- Men
- HTTPS
- humant
- bild
- genomföra
- implikationer
- vikt
- förbättra
- in
- informationen
- initialt
- insikt
- insikter
- Intelligens
- intresserad
- införa
- introducerade
- intuition
- IT
- DESS
- jpg
- KDnuggets
- Angelägen
- Vet
- kunskap
- känd
- Brist
- stämning
- elev
- inlärning
- lärande ingenjörer
- Nivå
- livet
- begränsningar
- Begränsad
- livslängd
- se
- du letar
- Lot
- Låg
- Maskinen
- maskininlärning
- göra
- chef
- betyder
- mer
- namn
- naturligt
- Behöver
- of
- on
- ONE
- öppnas
- möjligheter
- motsatt
- Övriga
- Övrigt
- produktion
- övergripande
- Paradox
- särskilt
- mönster
- procentuell
- utföra
- perioder
- Peter
- plato
- Platon Data Intelligence
- PlatonData
- Populära
- beredd
- presentera
- Problem
- process
- yrkesmän/kvinnor
- projektet
- projekt
- bevisar
- tillhandahålla
- sätta
- verklig
- verkliga världen
- realtid
- data i realtid
- Verkligheten
- Återstående
- representation
- Obligatorisk
- begränsa
- Omkastning
- vända
- översyn
- Rise
- s
- Samma
- scenarier
- Skola
- Vetenskap
- Forskare
- vetenskapsmän
- se
- söker
- flera
- Kort
- Visar
- signifikant
- skeptisk
- skicklighet
- färdigheter
- mindre
- Mjuk
- Alldeles strax
- specifik
- spendera
- starta
- statistisk
- Historia
- Läsa på
- sådana
- tillräcklig
- Ta
- tar
- grupp
- lag
- tech
- Teknisk
- den där
- Smakämnen
- den information
- deras
- sig själva
- därför
- Dessa
- sak
- Tänkande
- grundligt
- Genom
- tid
- till
- alltför
- Trend
- Trender
- sann
- självstudiekurser
- underliggande
- förstå
- förståelse
- us
- användning
- variabler
- Sätt..
- sätt
- Vad
- som
- Medan
- wikipedia
- kommer
- önskemål
- med
- utan
- Kvinnor
- arbetssätt
- världen
- skulle
- författare
- skrivning
- Fel
- år
- Din
- själv
- zephyrnet