使用 Scala 进行数据分析
选择合适的数据分析工具非常重要。 在举办国际数据科学竞赛的 Kaggle 论坛上,人们经常会问哪个工具更好。 R 和 Python 位居榜首。 在本文中,我们将向您介绍基于 Scala 的另一种数据分析技术堆栈。
By 罗马Zykov,创始人/数据科学家@TopDataLab
选择合适的数据分析工具非常重要。 上 Kaggle.com 在举办国际数据科学竞赛的论坛上,人们经常会问哪种工具更好。 R 和 Python 位居榜首。 在本文中,我们将向您介绍基于 Scala 编程语言和 火花 分布式计算平台。
我们是怎么想出它的? 在 Retail Rocket,我们在非常大的数据集上进行了大量的机器学习。 我们曾经使用一堆 IPython + Pyhs2 (Python 的 hive 驱动程序) + Pandas + Sklearn 来开发原型。 2014 年夏末,我们做出了切换到 Spark 的根本决定,因为实验表明,在同一服务器群上我们将获得 3-4 倍的性能提升。
另一个优点是我们可以使用一种编程语言进行建模和在生产服务器上运行的代码。 这对我们来说是一个巨大的好处,因为之前我们同时使用 4 种语言:Hive、Pig、Java、Python。 对于一小群工程师来说,这是一个问题。
Spark 很好地支持通过 API 使用 Python/Scala/Java。 我们决定选择 Scala,因为 Spark 是用它编写的,这意味着我们可以分析它的源代码并在需要时修复错误。 它也是运行 Hadoop 的 JVM。
我必须说,这个选择并不容易,因为当时团队中没有人了解 Scala。
众所周知,要学会用一门语言进行良好的交流,您需要让自己沉浸在该语言中并尽可能多地使用它。 因此,我们放弃了 Python 堆栈,转而使用 Scala 进行建模和快速数据分析。
第一步是找到 IPython 笔记本的替代品。 选项如下:
到目前为止,我们选择了 ISpark,因为它很简单——它是用于 Scala/Spark 的 IPython。 连接 HighCharts 和 R 图形相对容易。 我们将其连接到 Yarn 集群没有任何问题。
任务
让我们尝试回答这个问题:您的在线商店中的平均购买金额 (AOV) 是否取决于静态客户参数,包括结算、浏览器类型(移动/桌面)、操作系统和浏览器版本? 你可以这样做 相互信息.
我们在推荐算法和分析中大量使用熵:经典香农公式、Kullback-Leibler 散度、互信息。 我们甚至提交了一篇关于这个主题的论文。 在墨菲著名的机器学习教科书中,有一个单独的部分(尽管很小)专门讨论这些措施。
让我们根据真实的 Retail Rocket 数据进行分析。 之前,我将示例以 csv 文件形式从集群复制到我的计算机上。
时间
这里我们使用以本地模式运行的 ISpark 和 Spark,这意味着所有计算都在本地执行并分布在处理器核心之间。 一切都在代码注释中描述。 最重要的是,在输出中我们得到了RDD(Spark数据结构),它是Row类型的案例类的集合,它是在代码中定义的。 这将允许您通过“.”引用字段,例如 _.categoryId。
资料来源:https://www.kdnuggets.com/2021/09/data-analysis-scala.html
- "
- &
- 100
- 优点
- 算法
- 所有类型
- Amazon
- 其中
- 分析
- 阿帕奇
- APIs
- 应用
- 刊文
- 博尔特
- 浏览器
- 虫子
- 建立
- 束
- 更改
- 图表
- 码
- 注释
- 比赛
- 计算
- data
- 数据分析
- 数据科学
- 数据科学家
- 处理
- 深入学习
- 开发
- DID
- 分布式计算
- 司机
- 工程师
- 工程师
- 等
- Excel
- 体验
- 实验
- 勘探
- 面部彩妆
- 家庭
- 高效率
- 特征
- 字段
- 姓氏:
- 固定
- 创办人
- 骨架
- GitHub上
- Hadoop的
- 此处
- 蜂房
- 创新中心
- How To
- HTTPS
- 巨大
- 信息
- 互动
- 国际
- IT
- 爪哇岛
- 语言
- 语言
- 大
- 学习用品
- 学习
- 自学资料库
- Line
- 清单
- 本地
- 当地
- 长
- 机器学习
- 机
- 数学
- 指标
- 微软
- 造型
- 最受欢迎的产品
- 笔记本电脑
- 在线
- 网上商店
- 打开
- 开放源码
- 操作
- 操作系统
- 附加选项
- 秩序
- 其它
- 纸类
- 员工
- 性能
- 透视
- 物理
- 平台
- 热门
- 个人档案
- 生产
- 代码编程
- 项目
- 采购
- 蟒蛇
- 零售
- 运行
- 运行
- 斯卡拉
- 科学
- 科学家
- 集
- 沉降
- 简易
- 尺寸
- 技能
- 小
- So
- 软件
- 太空
- 商店
- 故事
- 提交
- 夏季
- 支持
- 支持
- Switch 开关
- 系统
- 技术
- 测试
- 图
- 次
- 最佳
- 统一
- 的URI
- us
- 折扣值
- 卷筒纸
- 维基百科上的数据
- 窗户
- 工作
- X
- 年
- 零