Bild vom Autor
Data Scientists, Data Engineers und Machine Learning Engineers verbringen viel Zeit damit, sich Daten anzusehen und daraus statistische Zeichnungen oder Schlussfolgerungen zu ziehen. Aber eine wichtige Sache, die für diese Fachleute und jeden, der Daten betrachtet, eine erforderliche Fähigkeit ist, ist eine gute Intuition für die reale Welt.
Daten haben mehrere Variablen, die Sie berücksichtigen können, es ist jedoch gut zu beachten, dass sie eine endlichdimensionale Darstellung erzeugen. Hier müssen Sie über die Daten hinaussehen und herausfinden, was die verborgene Realität ist und wie sie auf den Datensatz angewendet werden kann.
Das Simpson-Paradoxon beweist uns, wie wichtig es ist, bei der Interpretation Ihrer Daten skeptisch zu sein und sicherzustellen, dass Sie die reale Welt anwenden – ohne sich einzuschränken, sie aus der Sicht der Daten zu sehen.
1972 führte Colin R. Blyth den Namen Simpson's Paradox ein, auch bekannt als Simpson's Reversal, Yule-Simpson-Effekt, Amalgamation Paradox oder Reversal Paradox.
Das Simpson-Paradoxon liegt vor, wenn ein Trend oder eine Ausgabe vorhanden ist, wenn die Daten in Gruppen eingeteilt werden, die sich entweder umkehren oder verschwinden, wenn die Daten kombiniert werden. Es ist ein statistisches Paradoxon, wenn aus denselben Daten zwei gegensätzliche Schlussfolgerungen gezogen werden können, je nachdem, wie die Daten gruppiert sind.
UC Berkeley und Simpsons Paradoxon
Ein beliebtes Beispiel für Simpsons Paradoxon ist die Studie der UC Berkeley über geschlechtsspezifische Vorurteile bei der Zulassung zu Graduiertenschulen. 1973, zu Beginn des akademischen Jahres, ließ die Graduiertenschule der UC Berkeley etwa 44 % männliche und 35 % weibliche Bewerber zu. Die Schule befürchtete, mit einer Klage konfrontiert zu werden, und bereitete sich daher darauf vor, indem sie Peter Bickel, einen Statistiker, bat, sich die Daten anzusehen.
Er fand heraus, dass es in 4/6 Abteilungen eine statistisch signifikante geschlechtsspezifische Voreingenommenheit zugunsten von Frauen gab und dass es in den verbleibenden 2 keine signifikante geschlechtsspezifische Voreingenommenheit gab geringerer Bewerberanteil.
In Simpson's Paradox müssen Sie reale Szenarien und Variablen berücksichtigen, die verborgen und nicht einfach durch Daten interpretiert werden können. In diesem Beispiel ist die verborgene Variable, dass sich mehr Frauen für eine bestimmte Abteilung beworben haben. Dies wirkt sich auf den Gesamtprozentsatz der zugelassenen Bewerber aus, und zwar in einer Weise, die den umgekehrten Trend zeigt, der ursprünglich in den Daten vorhanden war.
Das Team kam dann zu dem Schluss, dass sich ihre Ausgabe der Daten änderte, als sie sie bei der Aufteilung der Schule in Abteilungen berücksichtigten.
Das folgende Bild erklärt, wie sich die Trends umkehren, wenn die Daten gruppiert werden:
Bild von Wikipedia
Das Simpson-Paradoxon kann die Arbeit mit Daten komplexer und den Entscheidungsprozess erheblich erschweren.
Wenn Sie anfangen, Ihre Daten anders zu berechnen, werden Sie zu anderen Schlussfolgerungen kommen. Dadurch wird es für Sie natürlich schwieriger, eine bestimmte genaue Schlussfolgerung zu ziehen, um weitere Erkenntnisse zu gewinnen. Das bedeutet, dass das Team die beste Schlussfolgerung finden muss, die eine faire Darstellung der Daten hat.
Bei der Arbeit mit datenbezogenen Projekten konzentrieren wir uns oft auf die Daten und versuchen, die Geschichte zu interpretieren, die sie uns zu erzählen versuchen. Aber wenn wir reales Wissen anwenden, würde uns das eine ganz andere Geschichte erzählen.
Das Verständnis der Bedeutung davon eröffnet uns mehr Möglichkeiten, die Daten genauer zu untersuchen und ausreichende Analysen durchzuführen, um den Entscheidungsprozess zu unterstützen. Das Simpson-Paradoxon konzentriert sich darauf, wie ein Mangel an ausreichendem analytischem Verständnis und allgemeinem Projektwissen uns in die Irre führen und falsche Entscheidungen treffen kann.
Beispielsweise sehen wir einen Anstieg beim Einsatz von Echtzeit-Datenanalysen. Immer mehr Teams implementieren dies, um Muster zu erkennen und diese Erkenntnisse zu nutzen, um Entscheidungen in kurzen Zeiträumen zu treffen. Die Arbeit mit Echtzeit-Datenanalyse ist effektiv, wenn Sie sich darauf konzentrieren, wie Sie ein Unternehmen auf der Grundlage der aktuellen Echtzeitdaten verbessern können. Diese kurzen Zeiträume können jedoch zu irreführenden Informationen führen und den insgesamt wahren Trend, den die Daten zeigen, verschleiern.
Die falsche Datenanalyse kann ein Unternehmen zurückhalten. Und wir alle wissen, dass falsche Entscheidungen ein Unternehmen immer zurückhalten. Daher hilft die Berücksichtigung des Simpson-Paradoxons dem Unternehmen, die Einschränkungen der Daten zu verstehen, was die Daten antreibt, und die verschiedenen Variablen und hält die Verzerrung niedrig.
Das Simpson-Paradoxon hilft Fachleuten, die mit Daten arbeiten, daran zu erinnern, wie wichtig es ist, Daten zu verstehen, und wie wichtig ihre Datenintuition ist. Dann zeigen sich die Soft Skills vieler Datenprofis, wie beispielsweise kritisches Denken.
Das Ziel besteht darin, nach versteckten Verzerrungen und Variablen zu suchen, die in den Daten vorhanden sind und die auf den ersten Blick oder nach einer umfassenden Analyse möglicherweise nicht leicht zu erkennen sind.
Eine Sache, die bei Simpsons Paradoxon berücksichtigt werden muss, ist, dass zu viele Datensammlungen schnell nutzlos werden und zu Verzerrungen führen können. Aber andererseits, wenn wir die Daten nicht aggregieren, können die Daten in den Informationen und zugrunde liegenden Mustern, die sie uns mitteilen können, eingeschränkt sein.
Um das Simpson-Paradoxon zu vermeiden, müssen Sie Ihre Daten gründlich überprüfen und sicherstellen, dass Sie das vorliegende Geschäftsproblem gut verstehen.
Nisha Arya ist Data Scientist, freiberuflicher technischer Redakteur und Community Manager bei KDnuggets. Sie ist besonders daran interessiert, Data Science Karriereberatung oder Tutorials und theoriebasiertes Wissen rund um Data Science anzubieten. Sie möchte auch die verschiedenen Möglichkeiten untersuchen, wie künstliche Intelligenz der Langlebigkeit des menschlichen Lebens zugute kommt/kann. Eine begeisterte Lernende, die ihr technisches Wissen und ihre Schreibfähigkeiten erweitern möchte, während sie anderen hilft, sie zu führen.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- Platoblockkette. Web3-Metaverse-Intelligenz. Wissen verstärkt. Hier zugreifen.
- Quelle: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :Ist
- $UP
- 35%
- a
- Über uns
- akademisch
- akzeptiert
- Konto
- genau
- zugelassen
- Beratung
- gegen
- Anhäufung
- Alle
- immer
- Analyse
- Analytische
- Analytik
- und
- jemand
- Anwendungen
- angewandt
- Jetzt bewerben
- Anwendung
- SIND
- um
- künstlich
- künstliche Intelligenz
- AS
- At
- vermeiden
- Zurück
- basierend
- BE
- werden
- Sein
- unten
- Nutzen
- Vorteile
- Berkeley
- BESTE
- Beyond
- vorspannen
- Big
- erweitern
- Geschäft
- by
- CAN
- Karriere
- Verursachen
- Auswählen
- kombiniert
- wie die
- community
- Unternehmen
- uneingeschränkt
- Komplex
- geschlossen
- Abschluss
- Berücksichtigung
- kritischem
- Strom
- technische Daten
- Datenanalyse
- Datenanalyse
- Datenwissenschaft
- Datenwissenschaftler
- Decision Making
- Entscheidungen
- tiefer
- Abteilung
- Abteilungen
- Abhängig
- anders
- verschwinden
- Nicht
- Zeichnungen
- leicht
- bewirken
- Effektiv
- entweder
- Ingenieure
- gewährleisten
- Gewährleistung
- Beispiel
- Erklärt
- ERKUNDEN
- Messe
- Favor
- weiblich
- Abbildung
- Finden Sie
- Suche nach
- Vorname
- First Look
- konzentriert
- konzentriert
- Fokussierung
- Aussichten für
- gefunden
- frei
- für
- weiter
- Geschlecht
- gut
- Abschluss
- Gruppen
- Guide
- Pflege
- Haben
- mit
- Hilfe
- Unternehmen
- hilft
- versteckt
- Verbergen
- High
- Ultraschall
- Hilfe
- aber
- HTTPS
- human
- Image
- Umsetzung
- Auswirkungen
- Bedeutung
- zu unterstützen,
- in
- Information
- anfänglich
- Einblick
- Einblicke
- Intelligenz
- interessiert
- einführen
- eingeführt
- Intuition
- IT
- SEINE
- jpg
- KDnuggets
- Scharf
- Wissen
- Wissen
- bekannt
- Mangel
- Klage
- Lerner
- lernen
- lernende Ingenieure
- Niveau
- Lebensdauer
- Einschränkungen
- Limitiert
- Langlebigkeit
- aussehen
- suchen
- Los
- Sneaker
- Maschine
- Maschinelles Lernen
- um
- Manager
- Mittel
- mehr
- Name
- natürlich
- Need
- of
- on
- EINEM
- öffnet
- Entwicklungsmöglichkeiten
- gegenüber
- Andere
- Anders
- Ausgabe
- Gesamt-
- Paradox
- besonders
- Muster
- Prozentsatz
- ausführen
- Zeiträume
- Jürgen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Beliebt
- bereit
- Gegenwart
- Aufgabenstellung:
- Prozessdefinierung
- Profis
- Projekt
- Projekte
- Beweist
- Bereitstellung
- setzen
- echt
- realen Welt
- Echtzeit
- Echtzeitdaten
- Realität
- verbleibenden
- Darstellung
- falls angefordert
- einschränkend
- Umkehrung
- rückgängig machen
- Überprüfen
- Rise
- s
- gleich
- Szenarien
- Schule
- Wissenschaft
- Wissenschaftler
- Wissenschaftler
- Sehen
- auf der Suche nach
- mehrere
- Short
- Konzerte
- signifikant
- skeptisch
- Geschicklichkeit
- Fähigkeiten
- kleinere
- SOFT
- Bald
- spezifisch
- verbringen
- Anfang
- statistisch
- Geschichte
- Studie
- so
- ausreichend
- Nehmen
- Einnahme
- Team
- Teams
- Tech
- Technische
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- die Informationen
- ihr
- sich
- deswegen
- Diese
- Ding
- Denken
- gründlich
- Durch
- Zeit
- zu
- auch
- Trend
- Trends
- was immer dies auch sein sollte.
- Tutorials
- zugrunde liegen,
- verstehen
- Verständnis
- us
- -
- Variablen
- Weg..
- Wege
- Was
- welche
- Während der
- Wikipedia
- werden wir
- Wünsche
- mit
- ohne
- Damen
- arbeiten,
- weltweit wie ausgehandelt und gekauft ausgeführt wird.
- würde
- Schriftsteller
- Schreiben
- Falsch
- Jahr
- Ihr
- sich selbst
- Zephyrnet