Zdjęcie autora
Analitycy danych, inżynierowie danych i inżynierowie uczenia maszynowego spędzają dużo czasu na przeglądaniu danych i wyszukiwaniu rysunków statystycznych lub wniosków z nich. Ale wielką rzeczą, która jest wymaganą umiejętnością dla tych profesjonalistów i każdego, kto patrzy na dane, jest dobra intuicja w prawdziwym świecie.
Dane mają kilka zmiennych, które można wziąć pod uwagę, jednak warto zauważyć, że tworzą one skończoną reprezentację wymiarową. W tym miejscu będziesz musiał spojrzeć poza dane i dowiedzieć się, czym jest ukryta rzeczywistość i jak można ją zastosować do zbioru danych.
Paradoks Simpsona dowodzi nam, jak ważny jest sceptycyzm podczas interpretacji danych i upewnienie się, że stosujesz rzeczywisty świat – bez ograniczania się do patrzenia na to z punktu widzenia danych.
W 1972 roku Colin R. Blyth wprowadził nazwę paradoks Simpsona, znany również jako odwrócenie Simpsona, efekt Yule-Simpson, paradoks amalgamacji lub paradoks odwrócenia.
Paradoks Simpsona występuje, gdy trend lub dane wyjściowe są obecne, gdy dane są umieszczane w grupach, które odwracają się lub znikają, gdy dane są łączone. Jest to paradoks statystyczny, w którym można wyciągnąć dwa przeciwne wnioski z tych samych danych, w zależności od tego, jak dane są pogrupowane.
UC Berkeley i paradoks Simpsona
Popularnym przykładem paradoksu Simpsona jest badanie UC Berkeley dotyczące uprzedzeń ze względu na płeć w rekrutacji na studia podyplomowe. W 1973 roku, na początku roku akademickiego, szkoła podyplomowa UC Berkeley przyjęła około 44% wniosków mężczyzn i 35% kobiet. Szkoła obawiała się, że grozi im proces sądowy, dlatego przygotowała się na to, prosząc Petera Bickela, statystyka, o przyjrzenie się danym.
Odkrył, że w 4/6 wydziałach istniała istotna statystycznie stronniczość ze względu na płeć, która była na korzyść kobiet, a w pozostałych 2 nie było istotnej różnicy ze względu na płeć. Odkrycia zespołu pokazały, że kobiety aplikowały na wydziały, które miały ogólną mniejszy odsetek kandydatów.
W Paradoksie Simpsona musisz wziąć pod uwagę rzeczywiste scenariusze i zmienne, które można ukryć i niełatwo zinterpretować za pomocą danych. W tym przykładzie ukrytą zmienną jest to, że więcej kobiet aplikowało na określony dział. Wpływa to na ogólny odsetek przyjętych kandydatów w sposób, który pokazuje odwrotną tendencję, która początkowo występowała w danych.
Następnie zespół doszedł do wniosku, że ich dane wyjściowe zmieniły się, gdy wzięli je pod uwagę przy podziale szkoły na wydziały.
Poniższy obraz wyjaśnia, w jaki sposób trendy odwracają się, gdy dane są grupowane:
Image by Wikipedia
Paradoks Simpsona może uczynić pracę z danymi bardziej złożoną i znacznie utrudnić proces podejmowania decyzji.
Jeśli zaczniesz ponownie próbkować swoje dane w inny sposób, wyciągniesz inne wnioski. To oczywiście utrudni ci wybranie jednego konkretnego trafnego wniosku, aby wyciągnąć dalsze spostrzeżenia. Oznacza to, że zespół będzie musiał znaleźć najlepszy wniosek, który ma rzetelną reprezentację danych.
Pracując z projektami związanymi z danymi, często koncentrujemy się na danych i próbujemy zinterpretować historię, którą próbują nam opowiedzieć. Ale gdybyśmy zastosowali wiedzę z rzeczywistego świata, opowiedziałaby nam ona zupełnie inną historię.
Zrozumienie znaczenia tego otwiera przed nami więcej możliwości głębszego przyjrzenia się danym i przeprowadzenia wystarczającej analizy, aby pomóc w procesie podejmowania decyzji. Paradoks Simpsona koncentruje się na tym, jak brak wystarczającego wglądu analitycznego i ogólnej wiedzy o projekcie może nas wprowadzić w błąd i podejmować błędne decyzje.
Na przykład obserwujemy wzrost wykorzystania analiz danych w czasie rzeczywistym. Coraz więcej zespołów wdraża to, aby pomóc wykrywać wzorce i wykorzystywać tę wiedzę do podejmowania decyzji w krótkich okresach czasu. Praca z analizą danych w czasie rzeczywistym jest skuteczna, gdy koncentrujesz się na tym, jak ulepszyć firmę w oparciu o aktualne dane w czasie rzeczywistym. Jednak te krótkie okresy mogą powodować wprowadzanie w błąd informacji i ukrywać ogólny prawdziwy trend, który pokazują dane.
Niewłaściwa analiza danych może powstrzymać firmę. Wszyscy wiemy, że błędne decyzje zawsze powstrzymują firmę. Dlatego uwzględnienie paradoksu Simpsona przynosi korzyści firmie w zrozumieniu ograniczeń danych, tego, co napędza dane i różne zmienne, oraz utrzymuje niskie obciążenie.
Paradoks Simpsona pomaga przypomnieć profesjonalistom pracującym z danymi o znaczeniu zrozumienia danych i ich poziomie intuicji w zakresie danych. To wtedy zaprezentuje się wiele miękkich umiejętności specjalistów ds. danych, takich jak krytyczne myślenie.
Celem jest poszukiwanie ukrytych błędów i zmiennych obecnych w danych, które mogą nie być łatwe do wykrycia na pierwszy rzut oka lub po przeprowadzeniu szczegółowej analizy.
Jedną z rzeczy, które należy wziąć pod uwagę w związku z paradoksem Simpsona, jest to, że zbyt duża agregacja danych może wkrótce stać się bezużyteczna i zacząć wprowadzać stronniczość. Ale z drugiej strony, jeśli nie agregujemy danych, dane mogą być ograniczone pod względem informacji i podstawowych wzorców, które mogą nam przekazać.
Aby uniknąć paradoksu Simpsona, musisz dokładnie przejrzeć swoje dane i upewnić się, że dobrze rozumiesz problem biznesowy.
Nisza Arja jest analitykiem danych, niezależnym pisarzem technicznym i menedżerem ds. społeczności w KDnuggets. Jest szczególnie zainteresowana udzielaniem porad dotyczących kariery w Data Science lub samouczkami i wiedzą opartą na teorii wokół Data Science. Chciałaby również zbadać różne sposoby, w jakie sztuczna inteligencja jest / może korzystnie wpłynąć na długowieczność ludzkiego życia. Chętnie się uczy, stara się poszerzyć swoją wiedzę techniczną i umiejętności pisania, jednocześnie pomagając innym.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :Jest
- $W GÓRĘ
- 35%
- a
- O nas
- akademicki
- zaakceptowany
- Konto
- dokładny
- Przyznał
- Rada
- przed
- zbiór
- Wszystkie kategorie
- zawsze
- analiza
- Analityczny
- analityka
- i
- ktoś
- aplikacje
- stosowany
- Aplikuj
- Stosowanie
- SĄ
- na około
- sztuczny
- sztuczna inteligencja
- AS
- At
- uniknąć
- z powrotem
- na podstawie
- BE
- stają się
- jest
- poniżej
- korzyści
- Korzyści
- Berkeley
- BEST
- Poza
- stronniczość
- Duży
- poszerzać
- biznes
- by
- CAN
- Kariera
- Spowodować
- Dodaj
- połączony
- jak
- społeczność
- sukcesy firma
- całkowicie
- kompleks
- zawarta
- konkluzja
- wynagrodzenie
- krytyczny
- Aktualny
- dane
- analiza danych
- Analityka danych
- nauka danych
- naukowiec danych
- Podejmowanie decyzji
- Decyzje
- głębiej
- Departament
- Działy
- W zależności
- różne
- znikać
- nie
- Rysunki
- z łatwością
- efekt
- Efektywne
- bądź
- Inżynierowie
- zapewnić
- zapewnienie
- przykład
- Objaśnia
- odkryj
- sprawiedliwy
- faworyzować
- Płeć żeńska
- Postać
- Znajdź
- znalezieniu
- i terminów, a
- Pierwsze spojrzenie
- koncentruje
- koncentruje
- skupienie
- W razie zamówieenia projektu
- znaleziono
- wolny zawód
- od
- dalej
- Płeć
- dobry
- absolwent
- Grupy
- poprowadzi
- ręka
- Have
- mający
- pomoc
- pomoc
- pomaga
- Ukryty
- Ukryj
- Wysoki
- przytrzymaj
- W jaki sposób
- How To
- Jednak
- HTTPS
- człowiek
- obraz
- wykonawczych
- implikacje
- znaczenie
- podnieść
- in
- Informacja
- początkowo
- wgląd
- spostrzeżenia
- Inteligencja
- zainteresowany
- przedstawiać
- wprowadzono
- intuicja
- IT
- JEGO
- jpg
- Knuggety
- Zapalony
- Wiedzieć
- wiedza
- znany
- Brak
- proces sądowy
- uczeń
- nauka
- uczących się inżynierów
- poziom
- życie
- Ograniczenia
- Ograniczony
- długowieczność
- Popatrz
- poszukuje
- Partia
- niski
- maszyna
- uczenie maszynowe
- robić
- kierownik
- znaczy
- jeszcze
- Nazwa
- naturalnie
- Potrzebować
- of
- on
- ONE
- otwiera
- Szanse
- naprzeciwko
- Inne
- Pozostałe
- wydajność
- ogólny
- Paradoks
- szczególnie
- wzory
- procent
- wykonać
- okresy
- Piotr
- plato
- Analiza danych Platona
- PlatoDane
- Popularny
- przygotowany
- teraźniejszość
- Problem
- wygląda tak
- specjalistów
- projekt
- projektowanie
- dowodzi
- że
- położyć
- real
- Prawdziwy świat
- w czasie rzeczywistym
- dane w czasie rzeczywistym
- Rzeczywistość
- pozostały
- reprezentacja
- wymagany
- ograniczające
- Odwrócenie
- rewers
- przeglądu
- Rosnąć
- s
- taki sam
- scenariusze
- Szkoła
- nauka
- Naukowiec
- Naukowcy
- widzenie
- poszukuje
- kilka
- Short
- Targi
- znaczący
- sceptyczny
- umiejętność
- umiejętności
- mniejszy
- Miękki
- Wkrótce
- specyficzny
- wydać
- początek
- statystyczny
- Historia
- Badanie
- taki
- wystarczający
- Brać
- biorąc
- zespół
- Zespoły
- tech
- Techniczny
- że
- Połączenia
- Informacje
- ich
- sami
- w związku z tym
- Te
- rzecz
- Myślący
- całkowicie
- Przez
- czas
- do
- także
- Trend
- Trendy
- prawdziwy
- tutoriale
- zasadniczy
- zrozumieć
- zrozumienie
- us
- posługiwać się
- zmienne
- Droga..
- sposoby
- Co
- który
- Podczas
- Wikipedia
- będzie
- Życzenia
- w
- bez
- Kobieta
- pracujący
- świat
- by
- pisarz
- pisanie
- Źle
- rok
- Twój
- siebie
- zefirnet