Afbeelding door auteur
Data Scientists, Data Engineers en Machine Learning Engineers besteden veel van hun tijd aan het bekijken van data en het vinden van statistische tekeningen of conclusies daaruit. Maar een belangrijk ding dat een vereiste vaardigheid is voor deze professionals en iedereen die naar data kijkt, is een goede intuïtie hebben voor de echte wereld.
Gegevens hebben verschillende variabelen waarmee u rekening kunt houden, maar het is goed om op te merken dat het een eindig-dimensionale weergave oplevert. Hier moet je verder kijken dan de data en uitzoeken wat de verborgen realiteit is en hoe deze kan worden toegepast op de dataset.
De paradox van Simpson bewijst ons hoe belangrijk het is om sceptisch te zijn bij het interpreteren van uw gegevens en ervoor te zorgen dat u de echte wereld toepast - zonder uzelf te beperken om het vanuit een gegevensoogpunt te bekijken.
In 1972 introduceerde Colin R. Blyth de naam Simpson's paradox, ook wel bekend als Simpson's omkering, het Yule-Simpson-effect, samensmeltingsparadox of omkeringsparadox.
Simpson's Paradox is wanneer een trend of output aanwezig is wanneer de gegevens in groepen worden geplaatst die omkeren of verdwijnen wanneer de gegevens worden gecombineerd. Het is een statistische paradox waarbij het twee tegengestelde conclusies kan trekken uit dezelfde gegevens, afhankelijk van hoe de gegevens zijn gegroepeerd.
UC Berkeley en de paradox van Simpson
Een populair voorbeeld van de paradox van Simpson is de studie van UC Berkeley over gendervooroordelen bij toelating tot graduate schools. In 1973, aan het begin van het academisch jaar, liet de graduate school van UC Berkeley ongeveer 44% mannelijke sollicitaties en 35% vrouwelijke kandidaten toe. De school vreesde voor een rechtszaak te staan, bereidde zich hierop voor door Peter Bickel, een statisticus, te vragen naar de gegevens te kijken.
Wat hij ontdekte was dat er een statistisch significante genderbias was in het voordeel van vrouwen op 4/6 afdelingen, en dat er geen significante genderbias was in de overige 2. De bevindingen van het team toonden aan dat de vrouwen solliciteerden naar afdelingen met kleiner percentage aanvragers.
In Simpson's Paradox moet u rekening houden met real-world scenario's en variabelen die kunnen worden verborgen en niet gemakkelijk kunnen worden geïnterpreteerd door middel van gegevens. In dit voorbeeld is de verborgen variabele dat er meer vrouwen solliciteerden naar een specifieke afdeling. Dit beïnvloedt het totale percentage geaccepteerde aanvragers, op een manier die de omgekeerde trend laat zien die aanvankelijk in de gegevens bestond.
Het team kwam toen tot de conclusie dat hun output op de gegevens veranderde toen ze er rekening mee hielden bij het indelen van de school in afdelingen.
De onderstaande afbeelding legt uit hoe de trends omkeren wanneer de gegevens worden gegroepeerd:
Afbeelding door Wikipedia
De paradox van Simpson kan het werken met gegevens complexer maken en het besluitvormingsproces veel moeilijker maken.
Als u uw gegevens op een andere manier gaat resamplen, zult u met andere conclusies komen. Dit maakt het natuurlijk moeilijker voor u om één specifieke nauwkeurige conclusie te kiezen om verdere inzichten te verkrijgen. Dit betekent dat het team de beste conclusie moet vinden die een eerlijke weergave van de gegevens heeft.
Bij het werken met datagerelateerde projecten zijn we vaak gefocust op de data en proberen we het verhaal dat het ons probeert te vertellen te interpreteren. Maar als we kennis uit de echte wereld toepassen, zou dat ons een heel ander verhaal vertellen.
Als we het belang hiervan begrijpen, krijgen we meer mogelijkheden om dieper in de gegevens te kijken en voldoende analyses uit te voeren om te helpen bij het besluitvormingsproces. Simpson's Paradox richt zich op hoe een gebrek aan voldoende analytisch inzicht en algemene projectkennis ons kan misleiden en verkeerde beslissingen kan nemen.
Zo zien we een toename in het gebruik van real-time data analytics. Steeds meer teams implementeren dit om patronen te helpen ontdekken en gebruiken dit inzicht om in korte tijd beslissingen te nemen. Werken met real-time data-analyse is effectief wanneer je je richt op hoe je een bedrijf kunt verbeteren op basis van de actuele real-time data. Deze korte perioden kunnen echter leiden tot misleidende informatie en de algehele ware trend die de gegevens laten zien, verbergen.
De verkeerde data-analyse kan een bedrijf tegenhouden. En we weten allemaal dat verkeerde beslissingen een bedrijf altijd tegenhouden. Het in overweging nemen van de Simpson-paradox helpt het bedrijf daarom om de beperkingen van de gegevens te begrijpen, wat de gegevens aandrijft, en de verschillende variabelen, en houdt de vertekening laag.
Simpson's Paradox herinnert professionals die met data werken eraan hoe belangrijk het is om data te begrijpen en hoeveel data-intuïtie ze hebben. Dan zullen veel soft skills van dataprofessionals zich aandienen, zoals kritisch denken.
Het doel is om te zoeken naar verborgen vooroordelen en variabelen die aanwezig zijn in de gegevens, die misschien niet gemakkelijk te ontdekken zijn bij de eerste blik of wanneer een grondige analyse is uitgevoerd.
Een ding om rekening mee te houden met betrekking tot de Simpson-paradox is dat te veel aggregatie van gegevens al snel nutteloos kan worden en vooringenomenheid kan introduceren. Maar aan de andere kant, als we de gegevens niet aggregeren, kunnen de gegevens beperkt zijn in de informatie en onderliggende patronen die ze ons kunnen vertellen.
Om de paradox van Simpson te vermijden, moet u uw gegevens grondig bekijken en ervoor zorgen dat u een goed begrip hebt van het zakelijke probleem dat voorhanden is.
Nisha Arja is een datawetenschapper, freelance technisch schrijver en communitymanager bij KDnuggets. Ze is met name geïnteresseerd in het geven van loopbaanadvies of tutorials over Data Science en op theorie gebaseerde kennis rond Data Science. Ze wil ook de verschillende manieren onderzoeken waarop kunstmatige intelligentie de levensduur van de mens ten goede komt/kan komen. Een enthousiaste leerling, die haar technische kennis en schrijfvaardigheid wil verbreden, terwijl ze anderen helpt te begeleiden.
- Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
- Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
- Bron: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :is
- $UP
- 35%
- a
- Over
- academische
- aanvaard
- Account
- accuraat
- toegegeven
- advies
- tegen
- aggregatie
- Alles
- altijd
- analyse
- Analytisch
- analytics
- en
- iedereen
- toepassingen
- toegepast
- Solliciteer
- Het toepassen van
- ZIJN
- rond
- kunstmatig
- kunstmatige intelligentie
- AS
- At
- vermijd
- terug
- gebaseerde
- BE
- worden
- wezen
- onder
- voordeel
- betekent
- Berkeley
- BEST
- Verder
- vooringenomenheid
- Groot
- verbreden
- bedrijfsdeskundigen
- by
- CAN
- Carrière
- Veroorzaken
- Kies
- gecombineerde
- hoe
- gemeenschap
- afstand
- compleet
- complex
- gesloten
- conclusie
- overweging
- kritisch
- Actueel
- gegevens
- gegevensanalyse
- gegevens Analytics
- data science
- data scientist
- Besluitvorming
- beslissingen
- diepere
- afdeling
- afdelingen
- Afhankelijk
- anders
- verdwijnen
- Dont
- Tekeningen
- gemakkelijk
- effect
- effectief
- beide
- Ingenieurs
- verzekeren
- zorgen
- voorbeeld
- Verklaart
- Verken
- eerlijk
- Favor
- vrouw
- Figuur
- VIND DE PLEK DIE PERFECT VOOR JOU IS
- het vinden van
- Voornaam*
- First Look
- gericht
- richt
- gericht
- Voor
- gevonden
- freelance
- oppompen van
- verder
- Geslacht
- goed
- afstuderen
- Groep
- gids
- hand
- Hebben
- met
- hulp
- het helpen van
- helpt
- verborgen
- Verbergen
- Hoge
- houden
- Hoe
- How To
- Echter
- HTTPS
- menselijk
- beeld
- uitvoering
- implicaties
- belang
- verbeteren
- in
- informatie
- eerste
- inzicht
- inzichten
- Intelligentie
- geïnteresseerd
- voorstellen
- geïntroduceerd
- intuïtie
- IT
- HAAR
- jpg
- KDnuggets
- Keen
- blijven
- kennis
- bekend
- Gebrek
- proces
- leerling
- leren
- lerende ingenieurs
- Niveau
- Life
- beperkingen
- Beperkt
- lang leven
- Kijk
- op zoek
- lot
- Laag
- machine
- machine learning
- maken
- manager
- middel
- meer
- naam
- natuurlijk
- Noodzaak
- of
- on
- EEN
- opent
- Kansen
- tegenover
- Overige
- Overig
- uitgang
- totaal
- Paradox
- vooral
- patronen
- percentage
- uitvoeren
- periodes
- Peter
- Plato
- Plato gegevensintelligentie
- PlatoData
- Populair
- bereid
- presenteren
- probleem
- professionals
- project
- projecten
- bewijst
- het verstrekken van
- zetten
- vast
- echte wereld
- real-time
- realtime gegevens
- Realiteit
- resterende
- vertegenwoordiging
- nodig
- beperken
- Omkering
- omkeren
- beoordelen
- Stijgen
- s
- dezelfde
- scenario's
- School
- Wetenschap
- Wetenschapper
- wetenschappers
- te zien
- op zoek naar
- verscheidene
- Bermuda's
- Shows
- aanzienlijke
- sceptisch
- bekwaamheid
- vaardigheden
- kleinere
- Soft /Pastel
- Spoedig
- specifiek
- besteden
- begin
- statistisch
- Verhaal
- Studie
- dergelijk
- voldoende
- Nemen
- het nemen
- team
- teams
- tech
- Technisch
- dat
- De
- de informatie
- hun
- zich
- daarom
- Deze
- ding
- het denken
- grondig
- Door
- niet de tijd of
- naar
- ook
- trend
- Trends
- waar
- tutorials
- die ten grondslag liggen
- begrijpen
- begrip
- us
- .
- variabelen
- Manier..
- manieren
- Wat
- welke
- Terwijl
- Wikipedia
- wil
- wensen
- Met
- zonder
- Dames
- werkzaam
- wereld
- zou
- schrijver
- het schrijven van
- Verkeerd
- jaar
- Your
- jezelf
- zephyrnet