如今,成千上万的客户使用数据湖进行分析和机器学习。 但是,数据工程师必须在使用之前清理和准备这些数据。 基础数据必须准确且最新,以便客户做出自信的业务决策。 否则,数据消费者会失去对数据的信任并做出次优或不正确的决策。 评估数据是否准确和最新是数据工程师的一项常见任务。 今天有各种数据质量工具。 然而,常见的数据质量工具通常需要手动流程来监控数据质量。
AWS Glue 数据质量是 AWS胶水 测量和监控数据质量的 亚马逊简单存储服务 (Amazon S3) 数据湖和 AWS Glue 提取、转换和加载 (ETL) 作业。 这是一个开放预览功能,因此它已经在您的帐户中启用 可用地区. 您可以在 AWS Glue Studio 控制台中轻松定义和测量数据质量检查,而无需编写代码。 它简化了您管理数据质量的体验。
这篇文章是一个由四篇文章组成的系列文章的第 2 部分,旨在解释 AWS Glue 数据质量的工作原理。 查看本系列的上一篇文章:
在本文中,我们展示了如何创建一个 AWS Glue 作业来衡量和监控数据管道的数据质量。 我们还展示了如何根据数据质量结果采取行动。
解决方案概述
让我们考虑一个示例用例,其中数据工程师需要构建数据管道以将数据从原始区域提取到数据湖中的精选区域。 作为数据工程师,除了提取、转换和加载数据之外,您的主要职责之一是验证数据的质量。 预先识别数据质量问题可帮助您防止将不良数据放入精选区域并避免严重的数据损坏事件。
在本文中,您将学习如何轻松设置 内建的 和 习俗 在您的 AWS Glue 作业中进行数据验证检查,以防止不良数据破坏下游的高质量数据。
这篇文章使用的数据集是综合生成的; 以下屏幕截图显示了数据示例。
使用 AWS CloudFormation 设置资源
这篇文章包括一个 AWS CloudFormation 用于快速设置的模板。 您可以查看和自定义它以满足您的需要。
CloudFormation 模板生成以下资源:
- 一个 Amazon Simple Storage Service (Amazon S3) 存储桶 (
gluedataqualitystudio-*
). - S3 存储桶中的以下前缀和对象:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS身份和访问管理 (IAM) 用户、角色和策略。 IAM 角色 (
GlueDataQualityStudio-*
) 具有从 S3 存储桶读取和写入的权限。 - AWS Lambda 函数和这些函数创建和删除此堆栈所需的 IAM 策略。
要创建资源,请完成以下步骤:
- 登录 AWS CloudFormation 控制台 ,在
us-east-1
区域。 - 启动堆栈:
- 选择 我承认AWS CloudFormation可能会创建IAM资源.
- 创建堆栈 并等待堆栈创建步骤完成。
实施解决方案
要开始配置您的解决方案,请完成以下步骤:
- 点击 AWS Glue Studio 控制台,选择 工作机会 在导航窗格中。
- 选择 带有空白画布的视觉效果 并选择 创建.
- 选择 招聘详情 选项卡来配置作业。
- 针对 名字,输入
GlueDataQualityStudio
. - 针对 IAM角色, 选择以开头的角色
GlueDataQualityStudio-*
. - 针对 胶版,选择 胶3.0.
- 针对 工作书签,选择 关闭. 这允许您使用相同的输入数据集多次运行此作业。
- 针对 重试次数,输入
0
. - 在 先进的属性 部分,提供由 CloudFormation 模板创建的 S3 存储桶(以
gluedataqualitystudio-*
). - 保存.
- 作业保存后,选择 视觉 选项卡和 来源 菜单中选择 Amazon S3.
- 点击 数据源属性– S3 标签,用于 S3 源类型, 选择 S3位置.
- 浏览S3 并导航到前缀
/datalake/raw/customer/
在 S3 存储桶中以gluedataqualitystudio-*
. - 推断架构.
- 点击 操作 菜单中选择 评估数据质量.
- 选择 评估数据质量 节点。
点击 改造 选项卡,您现在可以开始构建数据质量规则。 您创建的第一个规则是检查是否Customer_ID
是唯一的而不是 null 使用isPrimaryKey
规则。 - 点击 规则类型 的选项卡 DQDL 规则生成器, 搜索
isprimarykey
并选择加号。 - 点击 架构 的选项卡 DQDL 规则生成器, 选择旁边的加号
Customer_ID
. - 在规则编辑器中,删除
id
.
我们添加的下一条规则检查First_Name
所有行都存在列值。 - 您也可以直接在规则编辑器中输入数据质量规则。 添加逗号 (,) 并输入
IsComplete "First_Name",
在第一条规则之后。
接下来,您添加一个自定义规则来验证没有行不存在Telephone
orEmail
. - 在规则编辑器中输入以下自定义规则:
- 对于此帖子,请选择 数据质量失败时作业失败 并选择 在没有加载目标的情况下失败作业 data 动作。 在里面 数据质量输出设置 部分中,选择 浏览S3 并导航到前缀
dqresults
在 S3 存储桶中以gluedataqualitystudio-*
. - 点击 目标 菜单中选择 Amazon S3.
- 选择 数据目标 – S3 存储桶 节点。
- 点击 数据目标属性– S3 标签,用于 格式,选择 实木复合地板,和 压缩类型,选择 活泼的.
- 针对 S3 目标位置,选择 浏览S3 并导航到前缀
/datalake/curated/customer/
在 S3 存储桶中以gluedataqualitystudio-*
. - 保存,然后选择 运行.
您可以在“运行”选项卡上查看作业运行详细信息。 在我们的示例中,作业失败并显示错误消息“AssertionError:由于节点的 DQ 规则失败,作业失败: ”
您可以在数据质量选项卡上查看数据质量结果。 在我们的示例中,自定义数据质量验证失败,因为数据集中的其中一行没有Telephone
orEmail
计算值。Evaluate Data Quality结果也根据节点的数据质量结果位置参数,以JSON格式写入S3 bucket。 - 导航
dqresults
S3 bucket 开始下的前缀gluedataqualitystudio-*
. 您将看到数据质量结果按日期分区。
以下是 JSON 文件的输出。 您可以使用此文件输出来构建自定义数据质量可视化仪表板。
您还可以监控 评估数据质量 节点通过 亚马逊CloudWatch 指标并设置警报以发送有关数据质量结果的通知。 要了解有关如何设置 CloudWatch 警报的更多信息,请参阅 使用 Amazon CloudWatch 警报.
清理
为避免产生未来费用并清理未使用的角色和策略,请删除您创建的资源:
- 删除
GlueDataQualityStudio
您在这篇文章中创建的工作。 - 在 AWS CloudFormation 控制台上,删除
GlueDataQualityStudio
叠加。
结论
AWS Glue 数据质量提供了一种简单的方法来衡量和监控 ETL 管道的数据质量。 在本文中,您了解了如何根据数据质量结果采取必要的措施,这有助于您保持高数据标准并做出自信的业务决策。
要了解有关 AWS Glue 数据质量的更多信息,请查看文档:
作者简介
迪恩班杜普拉萨德 是 AWS 的高级分析专家,专攻大数据服务。 他热衷于帮助客户在 AWS 云上构建现代数据架构。 他帮助各种规模的客户实施数据管理、数据仓库和数据湖解决方案。
亚尼斯门泰基迪斯 是 AWS Glue 团队的高级软件开发工程师。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- 关于我们
- ACCESS
- 账号管理
- 精准的
- 承认
- 操作
- 行动
- 后
- 所有类型
- 允许
- 已经
- Amazon
- 分析
- 和
- 架构
- AWS
- AWS CloudFormation
- AWS胶水
- 坏
- 不良数据
- 基于
- 因为
- before
- 大
- 大数据运用
- 建立
- 建筑物
- 商业
- 案件
- 收费
- 查
- 支票
- 云端技术
- 柱
- 相当常见
- 完成
- 信心
- 考虑
- 安慰
- 消费者
- 腐败
- 创建信息图
- 创建
- 创建
- 策划
- 习俗
- 顾客
- 合作伙伴
- 定制
- data
- 数据湖
- 数据管理
- 日期
- 决定
- 详情
- 研发支持
- 直接
- 文件
- 容易
- 编辑
- 邮箱地址
- 工程师
- 工程师
- 输入
- 错误
- 醚(ETH)
- 评估
- 例子
- 存在
- 体验
- 说明
- 提取
- 失败
- 失败
- 专栏
- 文件
- 姓氏:
- 以下
- 格式
- 止
- 功能
- 未来
- 产生
- 产生
- 越来越
- 帮助
- 帮助
- 帮助
- 高
- 高品质
- 创新中心
- How To
- 但是
- HTML
- HTTPS
- 数百
- 确定
- 身分
- 实施
- in
- 包括
- 输入
- 问题
- IT
- 工作
- 工作机会
- JSON
- 键
- 湖泊
- 学习用品
- 知道
- 学习
- 加载
- 装载
- 圖書分館的位置
- 失去
- 机
- 机器学习
- 保持
- 使
- 管理
- 颠覆性技术
- 管理的
- 手册
- 衡量
- 措施
- 菜单
- 的话
- 指标
- 可能
- 现代
- 显示器
- 显示器
- 更多
- 多
- 导航
- 旅游导航
- 必要
- 需要
- 下页
- 节点
- 通知
- 对象
- 优惠精选
- 一
- 打开
- 除此以外
- 面包
- 参数
- 部分
- 多情
- 允许
- 管道
- 配售
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 加
- 政策
- 帖子
- Prepare
- 当下
- 防止
- 预览
- 以前
- 小学
- 过程
- 提供
- 提供
- 质量
- 快速
- 原
- 阅读
- 最近
- 地区
- 要求
- 必须
- 资源
- 导致
- 成果
- 检讨
- 角色
- 角色
- 行
- 第
- 定位、竞价/采购和分析/优化数字媒体采购,但算法只不过是解决问题的操作和规则。
- 运行
- 同
- 搜索
- 部分
- 系列
- 服务
- 特色服务
- 集
- 设置
- 格局
- 显示
- 作品
- 签署
- 简易
- 尺寸
- So
- 软件
- 软件开发
- 方案,
- 解决方案
- 来源
- 专家
- 专业
- 堆
- 标准
- 开始
- 开始
- 开始
- 步
- 步骤
- 存储
- 工作室
- 如下
- 综合地
- 采取
- 目标
- 任务
- 团队
- 模板
- 数千
- 通过
- 时
- 至
- 今晚
- 工具
- 改造
- 转型
- 信任
- 下
- 相关
- 独特
- 未使用
- 使用
- 用例
- 用户
- 平时
- 验证
- 验证
- 折扣值
- 各个
- 查看
- 可视化
- 等待
- 是否
- 这
- 将
- 也完全不需要
- 合作
- 写
- 写作
- 书面
- 您一站式解决方案
- 和风网