Изображение по автору
Специалисты по данным, инженеры данных и инженеры по машинному обучению тратят много времени на изучение данных и поиск статистических рисунков или выводов из них. Но важная вещь, которая является обязательным навыком для этих профессионалов и всех, кто смотрит на данные, — это хорошая интуиция для реального мира.
Данные имеют несколько переменных, которые вы можете принять во внимание, однако следует отметить, что они создают конечномерное представление. Здесь вам придется заглянуть за пределы данных и выяснить, что такое скрытая реальность и как ее можно применить к набору данных.
Парадокс Симпсона доказывает нам важность скептицизма при интерпретации ваших данных и гарантии того, что вы применяете реальный мир, не ограничивая себя в том, чтобы смотреть на него с точки зрения данных.
В 1972 году Колин Р. Блит ввел название «парадокс Симпсона», также известный как обращение Симпсона, эффект Юла-Симпсона, парадокс слияния или парадокс обращения.
Парадокс Симпсона — это когда тенденция или результат присутствуют, когда данные помещаются в группы, которые либо меняются местами, либо исчезают при объединении данных. Это статистический парадокс, когда из одних и тех же данных можно сделать два противоположных вывода, в зависимости от того, как данные сгруппированы.
Калифорнийский университет в Беркли и парадокс Симпсона
Популярным примером парадокса Симпсона является исследование Калифорнийского университета в Беркли о предвзятости по признаку пола при приеме в аспирантуру. В 1973 году, в начале учебного года, аспирантура Калифорнийского университета в Беркли приняла около 44% заявлений мужчин и 35% абитуриентов женщин. Школа опасалась, что им грозит судебный процесс, поэтому подготовилась к этому, попросив Питера Бикеля, статистика, взглянуть на данные.
Он обнаружил, что существует статистически значимая гендерная предвзятость в пользу женщин в 4/6 департаментах, а в оставшихся 2 существенных гендерных предвзятостей не было. меньший процент соискателей.
В парадоксе Симпсона вам необходимо учитывать реальные сценарии и переменные, которые могут быть скрыты и не могут быть легко интерпретированы с помощью данных. В этом примере скрытая переменная заключается в том, что на конкретный факультет подавало больше заявлений женщин. Это влияет на общий процент принятых кандидатов таким образом, что показывает обратную тенденцию, которая изначально существовала в данных.
Затем команда пришла к выводу, что их вывод данных изменился, когда они приняли это во внимание при разделении школы на отделы.
На изображении ниже показано, как тенденции меняются, когда данные сгруппированы:
Изображение на Википедия.
Парадокс Симпсона может усложнить работу с данными и значительно усложнить процесс принятия решений.
Если вы начнете проводить повторную выборку данных по-другому, вы придете к другим выводам. Это, естественно, затруднит вам выбор одного конкретного точного вывода для дальнейшего понимания. Это означает, что команде придется найти наилучший вывод, который имеет достоверное представление данных.
При работе с проектами, связанными с данными, мы часто сосредотачиваемся на данных и пытаемся интерпретировать историю, которую они пытаются нам рассказать. Но если мы применим знания реального мира, это расскажет нам совершенно другую историю.
Понимание важности этого открывает больше возможностей для более глубокого изучения данных и проведения достаточного анализа, чтобы помочь в процессе принятия решений. Парадокс Симпсона фокусируется на том, как отсутствие достаточного аналитического понимания и общих знаний о проекте может ввести нас в заблуждение и принять неправильные решения.
Например, мы наблюдаем рост использования аналитики данных в реальном времени. Все больше и больше команд внедряют это, чтобы помочь выявлять закономерности и использовать это понимание для принятия решений в короткие периоды времени. Работа с анализом данных в реальном времени эффективна, когда вы сосредоточены на том, как улучшить компанию на основе текущих данных в реальном времени. Однако эти короткие периоды могут привести к вводящей в заблуждение информации и скрыть общую истинную тенденцию, которую показывают данные.
Неправильный анализ данных может сдержать компанию. И все мы знаем, что неправильные решения всегда тормозят развитие компании. Таким образом, принимая во внимание парадокс Симпсона, компания получает выгоду от понимания ограничений данных, того, что движет данными, и различных переменных, а также позволяет снизить предвзятость.
Парадокс Симпсона помогает напомнить профессионалам, работающим с данными, о важности понимания данных и их уровне интуиции данных. Именно тогда проявятся многие мягкие навыки специалистов по данным, такие как критическое мышление.
Цель состоит в том, чтобы найти скрытые смещения и переменные, присутствующие в данных, которые может быть нелегко обнаружить на первый взгляд или после проведения тщательного анализа.
В связи с парадоксом Симпсона следует принять во внимание одну вещь: слишком большое агрегирование данных может вскоре стать бесполезным и начать приводить к предвзятости. Но, с другой стороны, если мы не агрегируем данные, данные могут быть ограничены в информации и базовых шаблонах, которые они могут нам сообщить.
Чтобы избежать парадокса Симпсона, вам необходимо тщательно просмотреть свои данные и убедиться, что вы хорошо понимаете стоящую перед вами бизнес-проблему.
Ниша Арья является специалистом по данным, внештатным техническим писателем и менеджером сообщества в KDnuggets. Она особенно заинтересована в предоставлении карьерных советов или учебных пособий по науке о данных, а также теоретических знаний по науке о данных. Она также хочет изучить различные способы, которыми искусственный интеллект может способствовать долголетию человеческой жизни. Страстная ученица, стремящаяся расширить свои технические знания и навыки письма, одновременно помогая другим.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :является
- $UP
- 35%
- a
- О нас
- академический
- принятый
- Учетная запись
- точный
- признал
- совет
- против
- агрегирование
- Все
- всегда
- анализ
- Аналитические фармацевтические услуги
- аналитика
- и
- кто угодно
- Приложения
- прикладной
- Применить
- Применение
- МЫ
- около
- искусственный
- искусственный интеллект
- AS
- At
- избежать
- назад
- основанный
- BE
- становиться
- не являетесь
- ниже
- польза
- Преимущества
- Беркли
- ЛУЧШЕЕ
- Beyond
- смещение
- большой
- расширять
- бизнес
- by
- CAN
- Карьера
- Вызывать
- Выберите
- сочетании
- как
- сообщество
- Компания
- полностью
- комплекс
- в заключении исследования, финансируемого Центрами по контролю и профилактике заболеваний (CDC) и написанного бывшим начальником полиции Вермонта
- заключение
- рассмотрение
- критической
- Текущий
- данным
- анализ данных
- Анализ данных
- наука о данных
- ученый данных
- Принятие решений
- решения
- более глубокий
- Кафедра
- ведомства
- в зависимости
- различный
- исчезать
- Dont
- Чертежи
- легко
- эффект
- Эффективный
- или
- Инженеры
- обеспечивать
- обеспечение
- пример
- Объясняет
- Больше
- ярмарка
- в пользу
- женский пол
- фигура
- Найдите
- обнаружение
- First
- Первый взгляд
- внимание
- фокусируется
- фокусировка
- Что касается
- найденный
- внештатно
- от
- далее
- пол
- хорошо
- выпускник
- Группы
- инструкция
- рука
- Есть
- имеющий
- помощь
- помощь
- помогает
- Скрытый
- Спрятать
- High
- держать
- Как
- How To
- Однако
- HTTPS
- человек
- изображение
- Осуществляющий
- последствия
- значение
- улучшать
- in
- информация
- первоначально
- понимание
- размышления
- Интеллекта
- заинтересованный
- вводить
- выпустили
- интуиция
- IT
- ЕГО
- JPG
- КДнаггетс
- Острый
- Знать
- знания
- известный
- Отсутствие
- судебный процесс
- ученик
- изучение
- обучающиеся инженеры
- уровень
- ЖИЗНЬЮ
- недостатки
- Ограниченный
- долговечность
- посмотреть
- искать
- серия
- Низкий
- машина
- обучение с помощью машины
- сделать
- менеджер
- означает
- БОЛЕЕ
- имя
- естественно
- Необходимость
- of
- on
- ONE
- Откроется
- Возможности
- противоположность
- Другие контрактные услуги
- Другое
- выходной
- общий
- Парадокс
- особенно
- паттеранами
- процент
- выполнять
- периодов
- Питер
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Популярное
- подготовленный
- представить
- Проблема
- процесс
- профессионалы
- Проект
- проектов
- доказывает
- обеспечение
- положил
- реальные
- реальный мир
- реального времени
- данные в реальном времени
- Реальность
- осталось
- представление
- обязательный
- ограничение
- Обращение
- обратный
- обзоре
- Рост
- s
- то же
- Сценарии
- Школа
- Наука
- Ученый
- Ученые
- видя
- поиск
- несколько
- Короткое
- Шоу
- значительный
- скептический
- умение
- навыки
- меньше
- мягкая
- Скоро
- конкретный
- тратить
- Начало
- статистический
- История
- Кабинет
- такие
- достаточный
- взять
- с
- команда
- команды
- технологии
- Технический
- который
- Ассоциация
- информация
- их
- сами
- следовательно
- Эти
- задача
- мышление
- тщательно
- Через
- время
- в
- слишком
- тенденция
- Тенденции
- правда
- учебные пособия
- лежащий в основе
- понимать
- понимание
- us
- использование
- переменные
- Путь..
- способы
- Что
- который
- В то время как
- Википедия.
- будете
- пожелания
- без
- Женщина
- работает
- Мир
- бы
- писатель
- письмо
- Неправильно
- год
- ВАШЕ
- себя
- зефирнет