Image par auteur
Les scientifiques des données, les ingénieurs des données et les ingénieurs en apprentissage automatique passent une grande partie de leur temps à examiner les données et à en tirer des dessins statistiques ou des conclusions. Mais une grande chose qui est une compétence requise pour ces professionnels et tous ceux qui consultent des données est d'avoir une bonne intuition du monde réel.
Les données ont plusieurs variables que vous pouvez prendre en considération, cependant, il est bon de noter qu'elles produisent une représentation de dimension finie. C'est là que vous devrez voir au-delà des données et comprendre quelle est la réalité cachée et comment elle peut être appliquée à l'ensemble de données.
Le paradoxe de Simpson nous prouve l'importance d'être sceptique lors de l'interprétation de vos données et de vous assurer d'appliquer le monde réel - sans vous empêcher de le voir du point de vue des données.
En 1972, Colin R. Blyth a introduit le nom de paradoxe de Simpson, également connu sous le nom d'inversion de Simpson, effet Yule-Simpson, paradoxe d'amalgamation ou paradoxe d'inversion.
Le paradoxe de Simpson se produit lorsqu'une tendance ou une sortie est présente lorsque les données sont placées dans des groupes qui s'inversent ou disparaissent lorsque les données sont combinées. C'est un paradoxe statistique où il peut tirer deux conclusions opposées à partir des mêmes données, selon la façon dont les données sont regroupées.
UC Berkeley et le paradoxe de Simpson
Un exemple populaire du paradoxe de Simpson est l'étude de l'UC Berkeley sur les préjugés sexistes dans les admissions aux études supérieures. En 1973, au début de l'année universitaire, l'école doctorale de l'UC Berkeley a admis environ 44% de candidatures masculines et 35% de candidatures féminines. L'école craignait d'être confrontée à un procès, s'y est donc préparée en demandant à Peter Bickel, un statisticien, d'examiner les données.
Ce qu'il a découvert, c'est qu'il y avait un préjugé sexiste statistiquement significatif en faveur des femmes dans 4/6 départements, et qu'il n'y avait pas de préjugé sexiste significatif dans les 2 autres. Les conclusions de l'équipe ont montré que les femmes postulaient pour les départements qui avaient un plus faible pourcentage de candidats.
Dans Simpson's Paradox, vous devez prendre en compte des scénarios et des variables du monde réel qui peuvent être cachés et difficiles à interpréter à travers les données. Dans cet exemple, la variable cachée est que plus de femmes postulaient pour un département spécifique. Cela affecte le pourcentage global de candidats acceptés, d'une manière qui montre la tendance inverse qui existait initialement dans les données.
L'équipe a ensuite conclu que leur sortie sur les données changeait lorsqu'elle en tenait compte lors de la division de l'école en départements.
L'image ci-dessous explique comment les tendances s'inversent lorsque les données sont regroupées :
Image Wikipédia
Le paradoxe de Simpson peut rendre le travail avec des données plus complexe et rendre le processus de prise de décision beaucoup plus difficile.
Si vous commencez à rééchantillonner vos données différemment, vous obtiendrez des conclusions différentes. Cela rendra naturellement plus difficile pour vous de choisir une conclusion précise spécifique pour tirer de nouvelles informations. Cela signifie que l'équipe devra trouver la meilleure conclusion qui a une représentation juste des données.
Lorsque nous travaillons sur des projets liés aux données, nous nous concentrons souvent sur les données et essayons d'interpréter l'histoire qu'elles essaient de nous raconter. Mais si nous appliquions des connaissances du monde réel, cela nous raconterait une histoire complètement différente.
Comprendre l'importance de cela nous ouvre davantage d'opportunités pour approfondir les données et effectuer une analyse suffisante pour aider au processus de prise de décision. Le paradoxe de Simpson se concentre sur la façon dont un manque de perspicacité analytique suffisante et de connaissance globale du projet peut nous induire en erreur et prendre de mauvaises décisions.
Par exemple, nous constatons une augmentation de l'utilisation de l'analyse de données en temps réel. De plus en plus d'équipes l'implémentent pour aider à détecter des modèles et utilisent ces informations pour prendre des décisions sur de courtes périodes. Travailler avec l'analyse des données en temps réel est efficace lorsque vous vous concentrez sur la façon d'améliorer une entreprise en fonction des données en temps réel actuelles. Cependant, ces courtes périodes peuvent générer des informations trompeuses et masquer la véritable tendance globale que les données montrent.
Une mauvaise analyse des données peut freiner une entreprise. Et nous savons tous que de mauvaises décisions freinent toujours une entreprise. Par conséquent, la prise en compte du paradoxe de Simpson profite à l'entreprise pour comprendre les limites des données, ce qui motive les données et les différentes variables et maintient le biais à un faible niveau.
Le paradoxe de Simpson aide à rappeler aux professionnels travaillant avec des données l'importance de comprendre les données et leur niveau d'intuition des données. C'est à ce moment que de nombreuses compétences non techniques des professionnels des données se présenteront, comme la pensée critique.
L'objectif est de rechercher les biais cachés et les variables présentes dans les données, qui peuvent ne pas être facilement détectables au premier coup d'œil ou lorsqu'une analyse approfondie a été effectuée.
Une chose à prendre en considération à propos du paradoxe de Simpson est qu'une trop grande agrégation de données peut rapidement devenir inutile et commencer à introduire un biais. Mais d'un autre côté, si nous ne regroupons pas les données, les données peuvent être limitées dans les informations et les modèles sous-jacents qu'elles peuvent nous révéler.
Pour éviter le paradoxe de Simpson, vous devrez examiner attentivement vos données et vous assurer que vous avez une bonne compréhension du problème métier en question.
Nisha Arya est Data Scientist, rédacteur technique indépendant et Community Manager chez KDnuggets. Elle est particulièrement intéressée à fournir des conseils de carrière en science des données ou des tutoriels et des connaissances théoriques sur la science des données. Elle souhaite également explorer les différentes façons dont l'intelligence artificielle est/peut bénéficier à la longévité de la vie humaine. Une apprenante passionnée, cherchant à élargir ses connaissances techniques et ses compétences en écriture, tout en aidant à guider les autres.
- Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
- Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
- La source: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :est
- $UP
- 35%
- a
- À propos
- académique
- accepté
- Compte
- Avec cette connaissance vient le pouvoir de prendre
- admis
- conseils
- à opposer à
- agrégation
- Tous
- toujours
- selon une analyse de l’Université de Princeton
- Analytique
- analytique
- ainsi que
- chacun.e
- applications
- appliqué
- Appliquer
- Application
- SONT
- autour
- artificiel
- intelligence artificielle
- AS
- At
- éviter
- RETOUR
- basé
- BE
- devenez
- va
- ci-dessous
- profiter
- qui ne s'occupent pas de leur chez-soi.
- Berkeley
- LES MEILLEURS
- Au-delà
- biais
- Big
- élargir
- la performance des entreprises
- by
- CAN
- Carrière
- Causes
- Selectionnez
- combiné
- comment
- Communautés
- Société
- complètement
- complexe
- conclu
- conclusion
- considération
- critique
- Courant
- données
- l'analyse des données
- Analyse de Donnée
- science des données
- Data Scientist
- La prise de décision
- décisions
- profond
- Département
- départements
- Selon
- différent
- disparaître
- Ne pas
- Dessins
- même
- effet
- Efficace
- non plus
- Les ingénieurs
- assurer
- assurer
- exemple
- Explique
- explorez
- juste
- favoriser
- femelle
- Figure
- Trouvez
- trouver
- Prénom
- First Look
- concentré
- se concentre
- mettant l'accent
- Pour
- trouvé
- freelance
- de
- plus
- Genre
- Bien
- diplôme
- Groupes
- guide
- main
- Vous avez
- ayant
- aider
- aider
- aide
- caché
- Cacher
- Haute
- appuyez en continu
- Comment
- How To
- Cependant
- HTTPS
- humain
- image
- la mise en œuvre
- implications
- importance
- améliorer
- in
- d'information
- possible
- perspicacité
- idées.
- Intelligence
- intéressé
- introduire
- introduit
- intuition
- IT
- SES
- jpg
- KDnuggetsGenericName
- Vif
- Savoir
- spécialisées
- connu
- Peindre
- procès
- apprenant
- apprentissage
- ingénieurs d'apprentissage
- Niveau
- VIE
- limites
- limité
- longévité
- Style
- recherchez-
- Lot
- Faible
- click
- machine learning
- faire
- manager
- veux dire
- PLUS
- prénom
- naturellement
- Besoin
- of
- on
- ONE
- ouvre
- Opportunités
- opposé
- Autre
- Autres
- sortie
- global
- Paradoxe
- particulièrement
- motifs
- pourcentage
- effectuer
- périodes
- Peter
- Platon
- Intelligence des données Platon
- PlatonDonnées
- Populaire
- préparé
- représentent
- Problème
- processus
- ,une équipe de professionnels qualifiés
- Projet
- projets
- Prouve
- aportando
- mettre
- réal
- monde réel
- en temps réel
- données en temps réel à grande vitesse.
- Réalité
- restant
- représentation
- conditions
- restreindre
- Renversement
- inverser
- Avis
- Augmenter
- s
- même
- scénarios
- L'école
- Sciences
- Scientifique
- scientifiques
- voir
- recherche
- plusieurs
- Shorts
- Spectacles
- significative
- sceptique
- compétence
- compétences
- faibles
- Doux / Pastel
- disponible
- groupe de neurones
- passer
- Commencer
- statistique
- Histoire
- Étude
- tel
- suffisant
- Prenez
- prise
- équipe
- équipes
- technologie
- Technique
- qui
- La
- les informations
- leur
- se
- donc
- Ces
- chose
- En pensant
- complètement
- Avec
- fiable
- à
- trop
- Trend
- Trends
- oui
- tutoriels
- sous-jacent
- comprendre
- compréhension
- us
- utilisé
- les variables
- Façon..
- façons
- Quoi
- qui
- Si l’achat
- Wikipédia
- sera
- vœux
- avec
- sans
- Femme
- de travail
- world
- pourra
- écrivain
- écriture
- faux
- an
- Votre
- vous-même
- zéphyrnet