所有数据科学家都必须知道的四个数据工程基础

源节点: 1075630

这篇文章是作为 数据科学博客马拉松

介绍

数据科学是一项团队运动,我们的成员在整个分析/数据科学生命周期中增加价值,以便它可以通过解决具有挑战性的业务问题来推动转型。

我们在数据科学团队中有多个团队成员: 创建所有数据基础的数据工程师 分析师使用它来探索和进行描述性分析,进一步由数据科学家创建的高级 ML 模型 - 由 BI 工程师可视化并由 ML 工程师部署。 所有这些都必须协同工作才能成功推动组织的数据科学计划。

下面提到了数据科学团队的典型利益相关者地图:

数据科学角色 | 数据工程基础

图片1

内容:

为什么数据科学家需要了解数据工程概念?

  • 概念 1 – 数据仓库和数据湖
  • 概念 2 – 数据 ETL/管道
  • 概念 3 – 数据治理和质量
  • 概念 4 – 数据法规和道德规范

现在的问题是——我们团队中是否有优秀的数据工程师 为什么数据科学家需要了解那些数据工程/数据管理概念?

  1. 他们是数据的消费者,因此 创建强大的分析解决方案 有了这些数据 – 了解何时以及如何收集、存储和准备数据有助于他们获得正确的方法和工具来提取数据、获得洞察力和设计模型
  2. 数据科学团队可能需要 定期与数据工程交互 获取新数据,共享派生表的附加数据信息——了解这些概念可以进行更有效的对话
  3. 人们更加强调在同意和符合规定的情况下使用数据。 数据科学团队应该(他们已经)密切参与数据法规,因此拥有这些知识将 帮助 保持合规并降低数据监管风险

简而言之, 数据科学团队需要发挥他们的作用,在不影响数据法规的情况下,能够有效地从(大)数据中获得最大价值, 了解数据工程概念有助于他们做得更好。

在这种背景下,让我们直接从数据科学家的角度来看概念!

数据仓库和数据湖

数据科学家可能不知道的事情: 

在学习设计仪表板和创建模型时,数据科学家更熟悉它是基于存储在 数据仓库和来自数据湖. 数据科学家可能不知道从仓库中查询数据的最佳技术是什么,以及全面查看该数据的最佳方式是什么。

关键基础[I]的

  • 数据仓库是从多个来源(每个部门可能仍然有自己的仓库)创建的集中式真相数据库(例如,信用卡交易等金融服务行业数据)
  • 通常具有非规范化结构(用于更快的查询),并且每个表都已为潜在的业​​务案例准备和结构化
  • 数据湖是存储原始数据(包括非结构化数据)的数据仓库之前的一个步骤,所有数据都会被保留,即使其目的可能尚未定义。 (例如,临床医生在医疗保健方面的笔记)

它如何帮助数据科学家[II]

  • ML 模型/分析解决方案与其数据一样好,因此数据科学家必须了解数据的来源
  • 在大多数数据科学项目中,80% 的时间都花在数据整理上,因此数据仓库的知识以及能够理解/创建/请求分析就绪的数据集/数据集市有助于提高效率并缩短项目时间
  • 数据湖可以帮助数据科学家在发现练习中识别用例数据

 

数据 ETL(提取转换负载)/管道

数据科学家可能不知道的事情:

收集的数据和用于分析的数据在进入数据仓库或分析文件之前通常涉及许多预处理和传输步骤。 大多数数据科学家在学习 ML / AI 时可能使用了已经准备好的数据,这消除了对实际 ML 设计的需要,但在行业的实际 ML 设计中,数据科学家通常必须根据用例准备和修改数据——他们肯定需要知道什么是收集的数据以及它如何在特定领域结束(例如,Null 性别是否意味着用户不想共享它或是否意味着数据不可用或两者兼而有之——数据工程团队会有这些答案)

关键基础[III]

  • ETL =“提取、转换和加载”,是数据准备中所需的数据工程步骤,无论是将其存储在仓库中还是将其用于 ML 模型/分析用例
  • 它涉及从源(例如存储在 Adob​​e 云中的网站上的 Adob​​e 分析)获取数据,从中准备数据源,然后将其转换为与业务相关的格式(与组织的唯一客户 ID 集成)例如,将货币更改为 $ 形成本地货币),然后将其加载到数据仓库/湖中的一个或多个表中。 有时转换是在加载数据后完成的,称为 ELT。
  • 数据管道是数据从一个位置移动到另一个位置的一系列连接和步骤
  • 数据馈送是通过 ETL 过程定期摄取到数据仓库中的数据块

它如何帮助数据科学家

  • ML 模型/分析解决方案不仅是一次性的,而且需要不断更新和刷新——因为 ML 和数据管道需要
  • 数据 ETL 概念可应用于 ML 预处理,以制作可在 ML 实施期间使用的生产就绪代码和工作流
  • ETL 过程的知识可以帮助理解数据沿袭和正确解释数据(例如,“年龄”数据的知识是在销售点手动或自动收集的,并且在存储之前应用于年龄范围的映射可以帮助更好地设计 ML 模型)
云| 数据工程基础

图片2

 

数据治理和质量

数据科学家可能不知道的事情: 

数据是所有分析解决方案的基础,即使数据集的一部分被更改,它也会完全破坏创建的任何下游模型等,通常没有检查来从逻辑上检查特定上下文的数据一致性(例如,如果突然每个客户的收入在商业环境没有任何变化的情况下从 100 美元增加到 800 美元,那么它将导致错误的 ML 分数和不正确的仪表板)。 因此,数据科学团队必须与数据治理和工程团队密切合作,沿所有关键路径设置检查,以确保所有模型和分析始终获得正确的数据。

关键基础[IV]

  • 数据治理是一个更广泛的术语,用于定义组织如何管理数据目标、范围、所有权、隐私和安全,包括标准化流程和数据
  • 数据质量是数据治理的一个子集,重点是持续监控数据的完整性、一致性和处理数据违规行为的计划
  • 例如——如果一个组织必须摄取社交媒体数据,那么数据治理将在数据治理下进行所有评估和规划,然后使用数据质量评估收到的数据。

它如何帮助数据科学家

  • 数据质量有助于创建强大的分析解决方案并保持数据科学团队的声誉和信心
  • 如果 IT、数据科学和业务团队主动识别并共同解决,它可以防止返工和错误的业务决策
  • 这就像模型输出监控,但在这种情况下,数据仓库的输入数据受到密切监控,以针对任何异常情况发出警报
数据质量| 数据工程基础

图片3

数据法规和道德

数据科学家可能不知道的事情:

正在使用的数据可能会受到合法性的约束,甚至创建的 ML 模型也可能存在偏见,并且以有时不符合道德标准的非预期方式使用数据。 任何法律影响或品牌形象事件都可能是由数据科学团队所做的工作驱动的。 由于数据科学团队率先处理数据和该数据的分析解决方案,因此他们应对其影响负责。 令人惊讶的是,许多分析团队不知道这一点,也没有为此做好准备。 对于 DS 团队使用的用例,可能未收集用户同意。

关键基础[V]

  • 数据法规是指在数据使用周期结束时管理数据的收集、披露、存储、使用和清除的规则(例如 GDPR、CCPA)
  • 数据道德是指数据的道德使用、透明度、无偏见和正当使用(例如,不使用社会阶层数据拒绝客户贷款,即使该阶层可能有不良还款记录)

它如何帮助数据科学家

  • 防止以正确方式使用数据的法律、品牌和声誉风险
  • 帮助开发可作为整个组织示例的客户友好模型
  • 更好地管理对跨团队共享的敏感数据的访问,以避免数据被不法分子共享,从而有助于更好的数据治理策略设计

 

关闭的思考

分析堆栈:将它们整合在一起 – 它将所有元素(此处提到的 4 个)组合到一个实体中,分析团队使用该实体来生成结果。 通常情况下,它看起来像下面有一些变化。

分析堆栈 | 数据工程基础

图片4

数据科学团队必须专注于这四个因素,以建立弹性和稳定的实践,并以高质量持续为业务增加价值。


参考资料


[I]的 https://www.talend.com/resources/data-lake-vs-data-warehouse/

[II] https://towardsdatascience.com/data-warehouse-68ec63eecf78

[III] https://www.snowflake.com/guides/etl-pipeline

[IV] https://www.collibra.com/blog/data-quality-vs-data-governance

[V] https://www.datascience-pm.com/10-data-science-ethics-questions/

图片来源-

  1. Image 1: https://medium.com/co-learning-lounge/job-roles-in-data-science-10e790ea21b5
  2. Image 2: https://towardsdatascience.com/scalable-efficient-big-data-analytics-machine-learning-pipeline-architecture-on-cloud-4d59efc092b5
  3. 图 3:https://www.edq.com/blog/data-quality-vs-data-governance/
  4. 图 4:https://www.tellius.com/the-modern-data-analytics-stack/

文章 阿什维尼·库玛(Ashwini Kumar) | 数据科学领导和十字军 | LinkedIn

本文中显示的媒体不归 Analytics Vidhya 所有,由作者自行决定使用。

来源:https://www.analyticsvidhya.com/blog/2021/09/four-data-engineering-fundamentals-all-data-scientists-must-know/

时间戳记:

更多来自 分析维迪亚