Зображення автора
Фахівці з обробки даних, інженери з обробки даних та інженери з машинного навчання витрачають багато часу на перегляд даних і пошук статистичних малюнків або висновків із них. Але головне, що для цих професіоналів і будь-кого, хто переглядає дані, є обов’язковим умінням мати хорошу інтуїцію для реального світу.
Дані мають кілька змінних, які ви можете взяти до уваги, однак варто зазначити, що вони створюють кінцевовимірне представлення. Саме тут вам доведеться побачити за межами даних і з’ясувати, що таке прихована реальність і як її можна застосувати до набору даних.
Парадокс Сімпсона доводить нам, наскільки важливо бути скептичним під час інтерпретації ваших даних і гарантувати, що ви застосовуєте реальний світ, не обмежуючи себе поглядом на нього з точки зору даних.
У 1972 році Колін Р. Бліт ввів назву парадокс Сімпсона, також відомий як реверс Сімпсона, ефект Юла-Сімпсона, парадокс амальгамації або парадокс реверсії.
Парадокс Сімпсона — це коли тенденція або результат присутні, коли дані об’єднуються в групи, які або змінюються, або зникають, коли дані об’єднуються. Це статистичний парадокс, коли можна зробити два протилежні висновки з тих самих даних, залежно від того, як дані згруповані.
UC Berkeley і парадокс Сімпсона
Популярним прикладом парадоксу Сімпсона є дослідження Каліфорнійського університету в Берклі щодо гендерних упереджень під час вступу до аспірантури. У 1973 році, на початку навчального року, аспірантура Каліфорнійського університету в Берклі прийняла близько 44% заяв чоловіків і 35% жінок. У школі побоювалися, що вони зіткнулися з судовим процесом, тому підготувалися до цього, попросивши Пітера Бікеля, статистика, переглянути дані.
Він з’ясував, що у 4/6 департаментів було статистично значуще гендерне упередження на користь жінок, а в решті 2 не було значного гендерного упередження. Результати команди показали, що жінки подавали заявки на департаменти, які мали загальну менший відсоток претендентів.
У «Парадоксі Сімпсона» вам потрібно брати до уваги реальні сценарії та змінні, які можна приховати та непросто інтерпретувати через дані. У цьому прикладі прихована змінна полягає в тому, що більше жінок подавали заявки на певний відділ. Це впливає на загальний відсоток прийнятих заявників таким чином, що показує зворотну тенденцію, яка спочатку існувала в даних.
Потім команда прийшла до висновку, що їхні результати щодо даних змінилися, коли вони врахували їх під час поділу школи на відділи.
На зображенні нижче показано, як змінюються тенденції, коли дані групуються:
Зображення на Вікіпедія
Парадокс Сімпсона може ускладнити роботу з даними та значно ускладнити процес прийняття рішень.
Якщо ви почнете змінювати вибірку своїх даних по-іншому, ви прийдете з іншими висновками. Це, природно, ускладнить вам вибір одного конкретного точного висновку, щоб зробити подальше розуміння. Це означає, що команда повинна буде знайти найкращий висновок, який чесно відображає дані.
Працюючи з проектами, пов’язаними з даними, ми часто зосереджені на даних і намагаємося інтерпретувати історію, яку вони намагаються нам розповісти. Але якщо ми застосувамо знання реального світу, це розповість нам зовсім іншу історію.
Розуміння важливості цього відкриває для нас більше можливостей глибше вивчати дані та виконувати достатній аналіз, щоб допомогти в процесі прийняття рішень. Парадокс Сімпсона зосереджується на тому, як відсутність достатнього аналітичного розуміння та загального знання проекту може ввести нас в оману та прийняти неправильні рішення.
Наприклад, ми спостерігаємо зростання використання аналітики даних у реальному часі. Все більше і більше команд впроваджують це, щоб допомогти виявити закономірності та використовувати цю інформацію для прийняття рішень у короткі терміни. Робота з аналізом даних у реальному часі ефективна, коли ви зосереджені на тому, як покращити компанію на основі поточних даних у реальному часі. Однак ці короткі періоди можуть спричинити оманливу інформацію та приховати загальну справжню тенденцію, яку показують дані.
Неправильний аналіз даних може стримати компанію. І всі ми знаємо, що неправильні рішення завжди стримують компанію. Тому врахування парадоксу Сімпсона допомагає компанії розуміти обмеження даних, що керує даними та різні змінні, і зберігає низьке упередження.
Парадокс Сімпсона допомагає нагадати професіоналам, які працюють з даними, про важливість розуміння даних і рівень їхньої інтуїції щодо даних. Саме тоді з’являться багато навичок роботи з даними, таких як критичне мислення.
Мета полягає в тому, щоб шукати приховані упередження та змінні, які присутні в даних, які можуть бути непросто виявлені на перший погляд або після виконання ретельного аналізу.
Одна річ, яку слід взяти до уваги щодо парадоксу Сімпсона, полягає в тому, що занадто велика кількість агрегованих даних незабаром може стати марною та почати вносити упередження. Але з іншого боку, якщо ми не агрегуємо дані, дані можуть бути обмежені в інформації та базових шаблонах, які вони можуть нам повідомити.
Щоб уникнути парадоксу Сімпсона, вам потрібно буде ретельно переглянути свої дані та переконатися, що ви добре розумієте поточну бізнес-проблему.
Ніша Арья є дослідником даних, позаштатним технічним автором і менеджером спільноти в KDnuggets. Вона особливо зацікавлена в наданні кар’єрних порад щодо Data Science або навчальних посібників і теоретичних знань щодо Data Science. Вона також хоче вивчити різні способи, якими штучний інтелект приносить/може підвищити тривалість людського життя. Завзято навчається, прагне розширити свої технічні знання та навички письма, водночас допомагаючи керувати іншими.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :є
- $UP
- 35%
- a
- МЕНЮ
- академічний
- прийнятий
- рахунки
- точний
- зізнався
- рада
- проти
- агрегація
- ВСІ
- завжди
- аналіз
- Аналітичний
- аналітика
- та
- будь
- застосування
- прикладної
- Застосовувати
- Застосування
- ЕСТЬ
- навколо
- штучний
- штучний інтелект
- AS
- At
- уникнути
- назад
- заснований
- BE
- ставати
- буття
- нижче
- користь
- Переваги
- Берклі
- КРАЩЕ
- За
- зміщення
- Великий
- розширити
- бізнес
- by
- CAN
- кар'єра
- Викликати
- Вибирати
- комбінований
- Приходити
- співтовариство
- компанія
- повністю
- комплекс
- уклали
- висновок
- розгляду
- критичний
- Поточний
- дані
- аналіз даних
- Analytics даних
- наука про дані
- вчений даних
- Прийняття рішень
- рішення
- глибше
- відділ
- відомства
- Залежно
- різний
- зникають
- Не знаю
- Креслення
- легко
- ефект
- Ефективний
- або
- Інженери
- забезпечувати
- забезпечення
- приклад
- Пояснює
- дослідити
- ярмарок
- на користь
- жінка
- Рисунок
- знайти
- виявлення
- Перший
- Перший погляд
- увагу
- фокусується
- фокусування
- для
- знайдений
- позаштатний
- від
- далі
- Стать
- добре
- випускник
- Групи
- керівництво
- рука
- Мати
- має
- допомога
- допомогу
- допомагає
- прихований
- приховувати
- Високий
- тримати
- Як
- How To
- Однак
- HTTPS
- людина
- зображення
- реалізації
- наслідки
- значення
- удосконалювати
- in
- інформація
- спочатку
- розуміння
- розуміння
- Інтелект
- зацікавлений
- вводити
- введені
- інтуїція
- IT
- ЙОГО
- JPG
- KDnuggets
- Кін
- Знати
- знання
- відомий
- відсутність
- позов
- учень
- вивчення
- навчання інженерів
- рівень
- життя
- недоліки
- обмеженою
- довговічність
- подивитися
- шукати
- серія
- низький
- машина
- навчання за допомогою машини
- зробити
- менеджер
- засоби
- більше
- ім'я
- природно
- Необхідність
- of
- on
- ONE
- Відкриється
- Можливості
- протилежний
- Інше
- інші
- вихід
- загальний
- Парадокс
- особливо
- моделі
- відсоток
- виконувати
- періодів
- Пітер
- plato
- Інформація про дані Платона
- PlatoData
- популярний
- підготовлений
- представити
- Проблема
- процес
- професіонали
- проект
- проектів
- доводить
- забезпечення
- put
- реальний
- Реальний світ
- реального часу
- дані в режимі реального часу
- Реальність
- решті
- подання
- вимагається
- обмежуючий
- Звернення
- зворотний
- огляд
- Зростання
- s
- то ж
- сценарії
- Школа
- наука
- вчений
- Вчені
- бачачи
- пошук
- кілька
- Короткий
- Шоу
- значний
- скептичний
- майстерність
- навички
- менше
- М'який
- Скоро
- конкретний
- витрачати
- старт
- статистичний
- Історія
- Вивчення
- такі
- достатній
- Приймати
- взяття
- команда
- команди
- технології
- технічний
- Що
- Команда
- інформація
- їх
- самі
- отже
- Ці
- річ
- Мислення
- ретельно
- через
- час
- до
- занадто
- Trend
- Тенденції
- правда
- навчальні посібники
- що лежить в основі
- розуміти
- розуміння
- us
- використання
- змінні
- шлях..
- способи
- Що
- який
- У той час як
- Вікіпедія
- волі
- побажання
- з
- без
- жінки
- робочий
- світ
- б
- письменник
- лист
- Неправильно
- рік
- вашу
- себе
- зефірнет