图片作者
数据科学家、数据工程师和机器学习工程师花费大量时间查看数据并从中寻找统计图或结论。 但是对于这些专业人员和任何查看数据的人来说,一项重要的技能是对现实世界有良好的直觉。
数据有几个您可以考虑的变量,但是,最好注意它会产生有限维表示。 这是您必须超越数据并弄清楚隐藏的现实是什么以及如何将其应用于数据集的地方。
辛普森悖论向我们证明了在解释数据时持怀疑态度的重要性,并确保您应用现实世界——不限制自己从数据的角度来看它。
1972 年,Colin R. Blyth 引入了辛普森悖论的名称,也称为辛普森逆转、尤尔-辛普森效应、合并悖论或逆转悖论。
辛普森悖论是当数据被放入组中时出现趋势或输出,当数据组合时反转或消失。 这是一个统计悖论,它可以从相同的数据中得出两个相反的结论,具体取决于数据的分组方式。
加州大学伯克利分校和辛普森悖论
辛普森悖论的一个流行例子是加州大学伯克利分校关于研究生院招生中性别偏见的研究。 1973 年,在学年开始时,加州大学伯克利分校的研究生院录取了大约 44% 的男性申请者和 35% 的女性申请者。 学校担心他们会遭到诉讼,因此为此请统计学家彼得·比克尔 (Peter Bickel) 查看数据。
他发现,在 4/6 的部门中存在统计上显着的性别偏见,有利于女性,而在其余 2 个部门中没有显着的性别偏见。该团队的调查结果显示,女性申请的部门总体上具有申请人的比例较小。
在辛普森悖论中,你需要考虑到现实世界的场景和变量,这些场景和变量可以隐藏起来,不容易通过数据来解释。 在这个例子中,隐藏变量是更多的女性申请了一个特定的部门。 这会影响被录取申请人的总体百分比,以某种方式显示最初存在于数据中的相反趋势。
该团队随后得出结论,当他们在将学校划分为部门时将其考虑在内时,他们的数据输出发生了变化。
下图解释了数据分组后趋势如何反转:
图片由 维基百科上的数据
辛普森悖论会使数据处理变得更加复杂,并使决策过程更加困难。
如果您开始以不同的方式重新采样数据,您将得出不同的结论。 这自然会使您更难选择一个特定的准确结论来得出进一步的见解。 这意味着团队将必须找到能够公平代表数据的最佳结论。
在处理与数据相关的项目时,我们通常会专注于数据并尝试解释它试图告诉我们的故事。 但如果我们应用现实世界的知识,它会告诉我们一个完全不同的故事。
了解这一点的重要性为我们提供了更多机会来更深入地研究数据并进行充分的分析以帮助决策过程。 辛普森悖论侧重于缺乏足够的分析洞察力和整体项目知识会如何误导我们并做出错误的决定。
例如,我们看到实时数据分析的使用有所增加。 越来越多的团队正在实施它以帮助检测模式,并利用这种洞察力在短期内做出决策。 当您专注于如何根据当前实时数据改进公司时,使用实时数据分析是有效的。 然而,这些短周期可能会产生误导性信息并隐藏数据显示的总体真实趋势。
错误的数据分析可能会阻碍公司发展。 我们都知道,错误的决定总是会阻碍公司的发展。 因此,考虑辛普森悖论有助于公司了解数据的局限性、驱动数据的因素以及不同的变量并保持较低的偏差。
辛普森悖论有助于提醒处理数据的专业人员理解数据的重要性以及他们对数据的直觉水平。 这是许多数据专业人士的软技能会展现出来的时候,比如批判性思维。
目的是寻找数据中存在的隐藏偏差和变量,这些偏差和变量在乍一看或执行高级分析时可能不容易发现。
关于辛普森悖论需要考虑的一件事是,太多的数据聚合很快就会变得毫无用处,并开始引入偏见。 但另一方面,如果我们不聚合数据,则数据可能会限制在它可以告诉我们的信息和潜在模式方面。
为避免辛普森悖论,您需要彻底审查您的数据并确保您对手头的业务问题有很好的理解。
妮莎·艾莉亚 是 KDnuggets 的数据科学家、自由技术作家和社区经理。 她对提供数据科学职业建议或教程以及围绕数据科学的理论知识特别感兴趣。 她还希望探索人工智能是/可以有益于人类长寿的不同方式。 一个敏锐的学习者,寻求拓宽她的技术知识和写作技巧,同时帮助指导他人。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://www.kdnuggets.com/2023/03/simpson-paradox-implications-data-science.html?utm_source=rss&utm_medium=rss&utm_campaign=simpsons-paradox-and-its-implications-in-data-science
- :是
- $UP
- 35%
- a
- 关于我们
- 学者
- 公认
- 账号管理
- 精准的
- 承认
- 忠告
- 驳
- 聚合
- 所有类型
- 时刻
- 分析
- 分析
- 分析
- 和
- 任何人
- 应用领域
- 应用的
- 使用
- 应用
- 保健
- 围绕
- 人造的
- 人工智能
- AS
- At
- 避免
- 背部
- 基于
- BE
- 成为
- 作为
- 如下。
- 得益
- 好处
- 伯克利
- 最佳
- 超越
- 偏见
- 大
- 扩大
- 商业
- by
- CAN
- 寻找工作
- 原因
- 结合
- 如何
- 社体的一部分
- 公司
- 完全
- 复杂
- 总结
- 结论
- 考虑
- 危急
- 电流
- data
- 数据分析
- 数据分析
- 数据科学
- 数据科学家
- 决策
- 决定
- 更深
- 问题类型
- 部门
- 根据
- 不同
- 消失
- 别
- 图纸
- 容易
- 效果
- 有效
- 或
- 工程师
- 确保
- 保证
- 例子
- 介绍
- 探索
- 公平
- 赞成
- 女
- 数字
- 找到最适合您的地方
- 寻找
- 姓氏:
- 先来看看
- 重点
- 重点
- 聚焦
- 针对
- 发现
- 自由职业者
- 止
- 进一步
- 性别
- 非常好
- 毕业
- 组的
- 指南
- 手
- 有
- 有
- 帮助
- 帮助
- 帮助
- 老旧房屋
- 隐藏
- 高
- 举行
- 创新中心
- How To
- 但是
- HTTPS
- 人
- 图片
- 实施
- 启示
- 重要性
- 改善
- in
- 信息
- 原来
- 洞察
- 可行的洞见
- 房源搜索
- 有兴趣
- 介绍
- 介绍
- 直觉
- IT
- 它的
- JPG
- 掘金队
- 敏锐
- 知道
- 知识
- 已知
- 缺乏
- 诉讼
- 学习者
- 学习
- 学习工程师
- Level
- 生活
- 限制
- 有限
- 长寿
- 看
- 寻找
- 占地
- 低
- 机
- 机器学习
- 使
- 经理
- 手段
- 更多
- 姓名
- 自然
- 需求
- of
- on
- 一
- 打开
- 机会
- 相反
- 其他名称
- 其它
- 产量
- 最划算
- 悖论
- 尤其
- 模式
- 百分比
- 演出
- 期
- 彼得
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 热门
- 准备
- 当下
- 市场问题
- 过程
- 专业人士
- 项目
- 项目
- 证明
- 优
- 放
- 真实
- 真实的世界
- 实时的
- 实时数据
- 现实
- 其余
- 表示
- 必须
- 限制
- 翻转
- 反转
- 检讨
- 上升
- s
- 同
- 情景
- 学校
- 科学
- 科学家
- 科学家
- 看到
- 寻求
- 几个
- 短
- 作品
- 显著
- 怀疑的
- 技能
- 技能
- 小
- 软
- 不久
- 具体的
- 花
- 开始
- 统计
- 故事
- 学习
- 这样
- 足够
- 采取
- 服用
- 团队
- 队
- 科技
- 文案
- 这
- 信息
- 其
- 他们自己
- 因此
- 博曼
- 事
- 思维
- 透
- 通过
- 次
- 至
- 也有
- 趋势
- 趋势
- true
- 教程
- 相关
- 理解
- 理解
- us
- 使用
- 变量
- 方法..
- 方法
- 什么是
- 这
- 虽然
- 维基百科上的数据
- 将
- 祝愿
- 也完全不需要
- 女性
- 加工
- 世界
- 将
- 作家
- 写作
- 错误
- 年
- 您一站式解决方案
- 你自己
- 和风网