Immagine dell'autore
I data scientist, i data engineer e gli ingegneri del machine learning trascorrono molto del loro tempo a esaminare i dati e a ricavarne disegni statistici o conclusioni. Ma una cosa importante che è un'abilità richiesta per questi professionisti e chiunque guardi i dati è avere una buona intuizione per il mondo reale.
I dati hanno diverse variabili che puoi prendere in considerazione, tuttavia è bene notare che produce una rappresentazione a dimensione finita. È qui che dovrai vedere oltre i dati e capire qual è la realtà nascosta e come può essere applicata al set di dati.
Il paradosso di Simpson ci dimostra l'importanza di essere scettici quando si interpretano i dati e di assicurarsi di applicare il mondo reale, senza limitarsi a vederlo dal punto di vista dei dati.
Nel 1972 Colin R. Blyth introdusse il nome paradosso di Simpson, noto anche come inversione di Simpson, effetto Yule-Simpson, paradosso dell'amalgamazione o paradosso dell'inversione.
Il paradosso di Simpson è quando una tendenza o un output è presente quando i dati vengono inseriti in gruppi che si invertono o scompaiono quando i dati vengono combinati. È un paradosso statistico in cui può trarre due conclusioni opposte dagli stessi dati, a seconda di come i dati sono raggruppati.
UC Berkeley e il paradosso di Simpson
Un esempio popolare del paradosso di Simpson è lo studio della UC Berkeley sui pregiudizi di genere nelle ammissioni alle scuole di specializzazione. Nel 1973, all'inizio dell'anno accademico, la scuola di specializzazione della UC Berkeley ha ammesso circa il 44% di domande di sesso maschile e il 35% di donne. La scuola temeva di trovarsi di fronte a una causa legale, quindi si è preparata chiedendo a Peter Bickel, uno statistico, di dare un'occhiata ai dati.
Ciò che ha scoperto è che c'era un pregiudizio di genere statisticamente significativo a favore delle donne in 4/6 dipartimenti e che non c'era alcun pregiudizio di genere significativo nei restanti 2. I risultati del team hanno mostrato che le donne facevano domanda per i dipartimenti che avevano un punteggio complessivo percentuale inferiore di richiedenti.
Nel paradosso di Simpson, devi prendere in considerazione scenari e variabili del mondo reale che possono essere nascosti e non facilmente interpretati attraverso i dati. In questo esempio, la variabile nascosta è che più donne si stavano candidando per un reparto specifico. Ciò influisce sulla percentuale complessiva di candidati accettati, in un modo che mostra la tendenza inversa che esisteva inizialmente nei dati.
Il team ha quindi concluso che il loro risultato sui dati è cambiato quando ne hanno tenuto conto quando hanno diviso la scuola in dipartimenti.
L'immagine seguente spiega come le tendenze si invertono quando i dati vengono raggruppati:
Immagine di wikipedia
Il paradosso di Simpson può rendere più complesso il lavoro con i dati e rendere molto più difficile il processo decisionale.
Se inizi a ricampionare i tuoi dati in modo diverso, uscirai con conclusioni diverse. Ciò renderà naturalmente più difficile per te scegliere una specifica conclusione accurata per trarre ulteriori approfondimenti. Ciò significa che il team dovrà trovare la migliore conclusione che abbia una corretta rappresentazione dei dati.
Quando lavoriamo con progetti relativi ai dati, spesso ci concentriamo sui dati e cerchiamo di interpretare la storia che stanno cercando di raccontarci. Ma se applichiamo la conoscenza del mondo reale, ci racconterebbe una storia completamente diversa.
Comprendere l'importanza di questo ci apre maggiori opportunità per esaminare più a fondo i dati ed eseguire analisi sufficienti per aiutare nel processo decisionale. Il paradosso di Simpson si concentra su come la mancanza di una sufficiente comprensione analitica e di una conoscenza complessiva del progetto possa fuorviarci e prendere decisioni sbagliate.
Ad esempio, stiamo assistendo a un aumento dell'uso dell'analisi dei dati in tempo reale. Sempre più team lo stanno implementando per aiutare a rilevare i modelli e utilizzare questa intuizione per prendere decisioni in brevi periodi. Lavorare con l'analisi dei dati in tempo reale è efficace quando ci si concentra su come migliorare un'azienda sulla base dei dati attuali in tempo reale. Tuttavia, questi brevi periodi possono causare informazioni fuorvianti e nascondere la vera tendenza generale mostrata dai dati.
L'analisi errata dei dati può frenare un'azienda. E sappiamo tutti che le decisioni sbagliate frenano sempre un'azienda. Pertanto, prendere in considerazione il paradosso di Simpson aiuta l'azienda a comprendere i limiti dei dati, cosa guida i dati e le diverse variabili e mantiene bassi i pregiudizi.
Il paradosso di Simpson aiuta a ricordare ai professionisti che lavorano con i dati l'importanza di comprendere i dati e il loro livello di intuizione dei dati. Questo è il momento in cui si presenteranno molte competenze trasversali dei professionisti dei dati, come il pensiero critico.
L'obiettivo è cercare distorsioni nascoste e variabili presenti nei dati, che potrebbero non essere facilmente individuabili a prima vista o quando è stata eseguita un'analisi elevata.
Una cosa da tenere in considerazione sul paradosso di Simpson è che troppa aggregazione di dati può presto diventare inutile e iniziare a introdurre pregiudizi. Ma d'altra parte, se non aggreghiamo i dati, i dati possono essere limitati nelle informazioni e nei modelli sottostanti che possono dirci.
Per evitare il paradosso di Simpson, dovrai esaminare attentamente i tuoi dati e assicurarti di avere una buona comprensione del problema aziendale in questione.
Nisha Aria è Data Scientist, Scrittore tecnico freelance e Community Manager presso KDnuggets. È particolarmente interessata a fornire consulenza o tutorial sulla carriera in Data Science e conoscenze basate sulla teoria in Data Science. Desidera anche esplorare i diversi modi in cui l'Intelligenza Artificiale è/può giovare alla longevità della vita umana. Una studentessa appassionata, che cerca di ampliare le sue conoscenze tecnologiche e le sue capacità di scrittura, aiutando nel contempo a guidare gli altri.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- Platoblockchain. Web3 Metaverse Intelligence. Conoscenza amplificata. Accedi qui.
- Fonte: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :È
- $ SU
- 35%
- a
- Chi siamo
- accademico
- accettato
- Il mio account
- preciso
- ammesso
- consigli
- contro
- aggregazione
- Tutti
- sempre
- .
- Analitico
- analitica
- ed
- chiunque
- applicazioni
- applicato
- APPLICA
- AMMISSIONE
- SONO
- in giro
- artificiale
- intelligenza artificiale
- AS
- At
- evitare
- precedente
- basato
- BE
- diventare
- essendo
- sotto
- beneficio
- vantaggi
- Berkeley
- MIGLIORE
- Al di là di
- pregiudizio
- Big
- allargare
- affari
- by
- Materiale
- Career
- Causare
- Scegli
- combinato
- Venire
- comunità
- azienda
- completamente
- complesso
- concluso
- conclusione
- considerazione
- critico
- Corrente
- dati
- analisi dei dati
- Dati Analytics
- scienza dei dati
- scienziato di dati
- Decision Making
- decisioni
- più profondo
- Shirts Department
- dipartimenti
- Dipendente
- diverso
- scomparire
- Dont
- Disegni
- facilmente
- effetto
- Efficace
- o
- Ingegneri
- garantire
- assicurando
- esempio
- Spiega
- esplora
- fiera
- favorire
- la donna
- figura
- Trovare
- ricerca
- Nome
- First Look
- concentrato
- si concentra
- messa a fuoco
- Nel
- essere trovato
- indipendente
- da
- ulteriormente
- Sesso
- buono
- laurea
- Gruppo
- guida
- cura
- Avere
- avendo
- Aiuto
- aiutare
- aiuta
- nascosto
- nascondere
- Alta
- tenere
- Come
- Tutorial
- Tuttavia
- HTTPS
- umano
- Immagine
- Implementazione
- implicazioni
- importanza
- competenze
- in
- informazioni
- inizialmente
- intuizione
- intuizioni
- Intelligence
- interessato
- introdurre
- introdotto
- intuizione
- IT
- SUO
- jpg
- KDnuggets
- Acuto
- Sapere
- conoscenze
- conosciuto
- Dipingere
- querela
- allievo
- apprendimento
- ingegneri dell'apprendimento
- Livello
- Vita
- limiti
- Limitato
- longevità
- Guarda
- cerca
- lotto
- Basso
- macchina
- machine learning
- make
- direttore
- si intende
- Scopri di più
- Nome
- naturalmente
- Bisogno
- of
- on
- ONE
- apre
- Opportunità
- di fronte
- Altro
- Altri
- produzione
- complessivo
- Paradosso
- particolarmente
- modelli
- percentuale
- eseguire
- periodi
- Peter
- Platone
- Platone Data Intelligence
- PlatoneDati
- Popolare
- preparato
- presenti
- Problema
- processi
- Scelto dai professionisti
- progetto
- progetti
- dimostra
- fornitura
- metti
- di rose
- mondo reale
- tempo reale
- dati in tempo reale
- Realtà
- rimanente
- rappresentazione
- necessario
- limitando
- Inversione
- invertire
- recensioni
- Aumento
- s
- stesso
- Scenari
- di moto
- Scienze
- Scienziato
- scienziati
- vedendo
- cerca
- alcuni
- Corti
- Spettacoli
- significativa
- scettico
- abilità
- abilità
- inferiore
- Soft
- Arrivo
- specifico
- spendere
- inizia a
- statistiche
- Storia
- Studio
- tale
- sufficiente
- Fai
- presa
- team
- le squadre
- Tech
- Consulenza
- che
- I
- le informazioni
- loro
- si
- perciò
- Strumenti Bowman per analizzare le seguenti finiture:
- cosa
- Pensiero
- a fondo
- Attraverso
- tempo
- a
- pure
- Trend
- tendenze
- vero
- esercitazioni
- sottostante
- capire
- e una comprensione reciproca
- us
- uso
- variabili
- Modo..
- modi
- Che
- quale
- Mentre
- wikipedia
- volere
- auguri
- con
- senza
- Donna
- lavoro
- mondo
- sarebbe
- scrittore
- scrittura
- Wrong
- anno
- Trasferimento da aeroporto a Sharm
- te stesso
- zefiro