Imagine de autor
Oamenii de știință de date, inginerii de date și inginerii de învățare automată își petrec mult timp analizând date și găsind desene statistice sau concluzii din acestea. Dar un lucru important care este o abilitate necesară acestor profesioniști și oricine se uită la date are o intuiție bună pentru lumea reală.
Datele au mai multe variabile pe care le puteți lua în considerare, cu toate acestea, este bine să rețineți că produc o reprezentare cu dimensiuni finite. Aici va trebui să vedeți dincolo de date și să vă dați seama care este realitatea ascunsă și cum poate fi aplicată setului de date.
Paradoxul lui Simpson ne demonstrează importanța de a fi sceptici atunci când vă interpretăm datele și de a vă asigura că aplicați lumea reală – fără a vă limita să o vedeți din punct de vedere al datelor.
În 1972, Colin R. Blyth a introdus denumirea de paradoxul lui Simpson, cunoscut și sub numele de inversarea lui Simpson, efectul Yule-Simpson, paradoxul amalgamării sau paradoxul inversării.
Paradoxul lui Simpson este atunci când o tendință sau o ieșire este prezentă atunci când datele sunt puse în grupuri care fie se inversează, fie dispar atunci când datele sunt combinate. Este un paradox statistic în care se poate trage două concluzii opuse din aceleași date, în funcție de modul în care sunt grupate datele.
Paradoxul lui UC Berkeley și Simpson
Un exemplu popular al paradoxului lui Simpson este studiul lui UC Berkeley privind prejudecățile de gen în admiterea la școală absolventă. În 1973, la începutul anului universitar, școala absolventă a UC Berkeley a admis aproximativ 44% aplicații bărbați și 35% femei. Școala s-a temut că se confruntă cu un proces, așa că s-a pregătit pentru asta cerându-i lui Peter Bickel, un statistician, să arunce o privire asupra datelor.
Ceea ce a descoperit el a fost că există o părtinire de gen semnificativă din punct de vedere statistic, care era în favoarea femeilor în 4/6 departamente și că nu a existat o prejudecată semnificativă de gen în celelalte 2. Constatările echipei au arătat că femeile au aplicat pentru departamente care au avut un nivel global. procent mai mic de solicitanți.
În Paradoxul lui Simpson, trebuie să luați în considerare scenariile și variabilele din lumea reală care pot fi ascunse și nu sunt ușor de interpretat prin date. În acest exemplu, variabila ascunsă este că mai multe femei aplicau pentru un anumit departament. Acest lucru afectează procentul total de solicitanți acceptați, într-un mod care arată tendința inversă care a existat inițial în date.
Echipa a ajuns apoi la concluzia că rezultatele lor privind datele s-au schimbat atunci când au luat-o în considerare atunci când au împărțit școala în departamente.
Imaginea de mai jos explică modul în care tendințele se inversează atunci când datele sunt grupate:
Imagini de Wikipedia
Paradoxul lui Simpson poate face lucrul cu date mai complex și îngreunează mult procesul de luare a deciziilor.
Dacă începeți să reeșantionați datele în mod diferit, veți ieși cu concluzii diferite. Acest lucru vă va îngreuna în mod firesc să alegeți o concluzie precisă specifică pentru a obține informații suplimentare. Aceasta înseamnă că echipa va trebui să găsească cea mai bună concluzie care are o reprezentare corectă a datelor.
Când lucrăm cu proiecte legate de date, suntem adesea concentrați pe date și încercăm să interpretăm povestea pe care încearcă să ne-o spună. Dar dacă aplicăm cunoștințele din lumea reală, ne-ar spune o poveste complet diferită.
Înțelegerea importanței acestui lucru ne deschide mai multe oportunități de a privi mai în profunzime datele și de a efectua suficiente analize pentru a ajuta în procesul de luare a deciziilor. Paradoxul lui Simpson se concentrează asupra modului în care o lipsă de perspectivă analitică suficientă și de cunoștințe generale despre proiect ne poate induce în eroare și poate lua decizii greșite.
De exemplu, observăm o creștere a utilizării analizei datelor în timp real. Din ce în ce mai multe echipe implementează acest lucru pentru a ajuta la detectarea tiparelor și pentru a folosi această perspectivă pentru a lua decizii în perioade scurte. Lucrul cu analiza datelor în timp real este eficient atunci când vă concentrați asupra modului de îmbunătățire a unei companii pe baza datelor actuale în timp real. Cu toate acestea, aceste perioade scurte pot provoca informații înșelătoare și pot ascunde tendința generală adevărată pe care o arată datele.
Analiza greșită a datelor poate reține o companie. Și știm cu toții că deciziile greșite rețin întotdeauna o companie. Prin urmare, luând în considerare paradoxul lui Simpson, compania aduce beneficii companiei să înțeleagă limitările datelor, ceea ce conduce datele și diferitele variabile și menține prejudecățile scăzute.
Paradoxul lui Simpson îi ajută să reamintească profesioniștilor care lucrează cu date despre importanța înțelegerii datelor și nivelul lor de intuiție a datelor. Acesta este momentul în care se vor prezenta o mulțime de abilități soft ale profesioniștilor de date, cum ar fi gândirea critică.
Scopul este de a căuta părtiniri și variabile ascunse care sunt prezente în date, care ar putea să nu fie ușor de descoperit la prima vedere sau când a fost efectuată o analiză ridicată.
Un lucru de luat în considerare despre paradoxul lui Simpson este că prea multă agregare de date poate deveni în curând inutilă și poate începe să introducă părtinire. Dar, pe de altă parte, dacă nu cumulăm datele, datele pot fi limitate în informațiile și modelele subiacente pe care ni le poate spune.
Pentru a evita paradoxul lui Simpson, va trebui să vă revizuiți datele în detaliu și să vă asigurați că aveți o bună înțelegere a problemei de afaceri la îndemână.
Nisha Arya este Data Scientist, scriitor tehnic independent și Community Manager la KDnuggets. Este deosebit de interesată să ofere sfaturi în carieră în domeniul științei datelor sau tutoriale și cunoștințe bazate pe teorie în jurul științei datelor. De asemenea, dorește să exploreze diferitele moduri în care Inteligența Artificială este/poate aduce beneficii longevității vieții umane. O învățătoare dornică, care încearcă să-și extindă cunoștințele tehnice și abilitățile de scriere, ajutând în același timp să-i ghideze pe alții.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :este
- $UP
- 35%
- a
- Despre Noi
- academic
- admis
- Cont
- precis
- admise
- sfat
- împotriva
- agregare
- TOATE
- mereu
- analiză
- Analitic
- Google Analytics
- și
- oricine
- aplicatii
- aplicat
- Aplică
- Aplicarea
- SUNT
- în jurul
- artificial
- inteligență artificială
- AS
- At
- evita
- înapoi
- bazat
- BE
- deveni
- fiind
- de mai jos
- beneficia
- Beneficiile
- Berkeley
- CEL MAI BUN
- Dincolo de
- părtinire
- Mare
- extinde
- afaceri
- by
- CAN
- Carieră
- Provoca
- Alege
- combinate
- cum
- comunitate
- companie
- complet
- complex
- încheiat
- concluzie
- considerare
- critic
- Curent
- de date
- analiza datelor
- Analiza datelor
- știința datelor
- om de știință de date
- Luarea deciziilor
- Deciziile
- Mai adânc
- Departament
- departamente
- În funcție
- diferit
- dispărea
- Dont
- Desene
- cu ușurință
- efect
- Eficace
- oricare
- inginerii
- asigura
- asigurare
- exemplu
- explică
- explora
- echitabil
- favoriza
- Femeie
- Figura
- Găsi
- descoperire
- First
- În primul rând
- concentrat
- se concentrează
- concentrându-se
- Pentru
- găsit
- independent
- din
- mai mult
- Gen
- bine
- absolvent
- Grupului
- ghida
- mână
- Avea
- având în
- ajutor
- ajutor
- ajută
- Ascuns
- Ascunde
- Înalt
- deţine
- Cum
- Cum Pentru a
- Totuși
- HTTPS
- uman
- imagine
- Punere în aplicare a
- implicații
- importanță
- îmbunătăţi
- in
- informații
- inițial
- înţelegere
- perspective
- Inteligență
- interesat
- introduce
- introdus
- intuiţie
- IT
- ESTE
- jpg
- KDnuggets
- pasionat
- Cunoaște
- cunoştinţe
- cunoscut
- lipsă
- proces
- elev
- învăţare
- ingineri de învăţare
- Nivel
- Viaţă
- limitări
- Limitat
- longevitate
- Uite
- cautati
- Lot
- Jos
- maşină
- masina de învățare
- face
- manager
- mijloace
- mai mult
- nume
- natural
- Nevoie
- of
- on
- ONE
- deschide
- Oportunităţi
- opus
- Altele
- Altele
- producție
- global
- Paradox
- în special
- modele
- procent
- efectua
- perioadele
- Peter
- Plato
- Informații despre date Platon
- PlatoData
- Popular
- pregătit
- prezenta
- Problemă
- proces
- profesioniști
- proiect
- Proiecte
- dovedește
- furnizarea
- pune
- real
- lumea reală
- în timp real
- date în timp real
- Realitate
- rămas
- reprezentare
- necesar
- restricționarea
- Inversare
- inversa
- revizuiască
- Ridica
- s
- acelaşi
- scenarii
- Şcoală
- Ştiinţă
- Om de stiinta
- oamenii de stiinta
- vedere
- caută
- câteva
- Pantaloni scurți
- Emisiuni
- semnificativ
- sceptic
- calificare
- aptitudini
- mai mici
- Moale
- Curând
- specific
- petrece
- Începe
- statistic
- Poveste
- Studiu
- astfel de
- suficient
- Lua
- luare
- echipă
- echipe
- tech
- Tehnic
- acea
- informațiile
- lor
- se
- prin urmare
- Acestea
- lucru
- Gândire
- complet
- Prin
- timp
- la
- de asemenea
- tendință
- Tendinţe
- adevărat
- tutoriale
- care stau la baza
- înţelege
- înţelegere
- us
- utilizare
- variabile
- Cale..
- modalități de
- Ce
- care
- În timp ce
- Wikipedia
- voi
- dorește
- cu
- fără
- Femei
- de lucru
- lume
- ar
- scriitor
- scris
- Greșit
- an
- Ta
- te
- zephyrnet