数据治理是组织用来确保数据在整个生命周期中的质量和适当处理以产生业务价值的策略、流程和系统的集合。 数据治理越来越成为客户的首要考虑,因为他们将数据视为最重要的资产之一。 有效的数据治理可以通过提高数据质量、降低数据管理成本和确保利益相关者安全访问数据来做出更好的决策。 此外,数据治理需要遵守日益复杂的监管环境,包括数据隐私(如 GDPR 和 CCPA)和数据驻留法规(如欧盟、俄罗斯和中国)。
对于 AWS 客户,有效的数据治理可以改善决策制定、提高业务敏捷性、提供竞争优势并降低因不遵守监管义务而被罚款的风险。 我们了解为我们的客户提供全面的端到端数据治理解决方案的独特机会,该解决方案无缝集成到我们的服务组合中,并且 AWS湖形成 和 AWS Glue数据目录 是解决这些挑战的关键。
在这篇文章中,我们很高兴总结了 AWS Glue 数据目录、AWS Glue 爬虫和 Lake Formation 团队在 2022 年交付的功能。我们收集了一些关于数据治理、数据网格和现代数据的关键演讲和解决方案在 AWS re:Invent 2022 中发布和展示的架构,以及一些由客户和 AWS 合作伙伴构建的数据湖解决方案,以供参考。 无论您是数据平台构建者、数据工程师、数据科学家,还是任何对数据湖解决方案感兴趣的技术领导者,这篇文章都适合您。
要详细了解客户如何使用 Lake Formation 保护和共享数据,我们建议深入了解 GoDaddy 的 去中心化数据网格, 诺和诺德的 现代数据架构,以及摩根大通对其的改进 联合数据湖,一个使用 Lake Formation 的受控数据网格实现。 此外,您还可以了解 AWS 合作伙伴如何与 Lake Formation 集成以帮助客户构建独特的数据湖,在 Starburst 的 数据网格解决方案, 信息学的 自动化数据共享解决方案, 阿哈娜的 Presto 与 Lake Formation 集成, 登高的习俗 数据治理体系, PBS 如何使用 在他们的数据湖上进行机器学习,以及 hc1 如何提供 个性化的健康见解 为客户。
您可以查看客户如何使用 Lake Formation 构建 现代数据架构 在以下 re:Invent 2022 会谈中:
Lake Formation团队听取客户反馈,在跨账户数据治理、扩展数据湖源、实现业务数据目录的统一数据治理、使安全的企业对企业数据共享成为可能以及将细粒度访问控制的覆盖范围扩大到 亚马逊Redshift. 在这篇文章的其余部分,我们很高兴分享我们在 2022 年取得的进展。
加强跨账户治理
Lake Formation 为客户在其组织内跨账户共享数据提供了基础。 您可以将 AWS Glue 数据目录资源共享到 AWS身份和访问管理 (IAM) 账户内的委托人以及其他 AWS 账户使用两种方法。 第一个称为命名资源方法,用户可以在其中选择数据库和表的名称并选择要共享的权限类型。 第二种方法使用 LF-Tags,用户可以创建 LF-Tags 并将其关联到数据库和表,并使用 LF-Tag 策略和表达式向 IAM 主体授予权限。
2022 年 3 月,Lake Formation 推出了其第 XNUMX 版 跨账户共享功能. 有了这个新版本,Lake Formation 用户可以使用 LF-Tags 在 AWS组织 等级。 使用 LF 标签共享数据有助于扩展权限并减少数据湖构建者的管理工作。 跨账户共享版本 3 还允许您将资源共享给其他账户中的特定 IAM 委托人,让数据所有者控制谁可以访问其他账户中的数据。 最后,我们通过引入消除了编写和维护数据目录资源策略的开销 AWS 资源访问管理器 (AWS RAM) 在跨账户共享版本 3 中使用基于 LF-Tags 的策略进行邀请。我们鼓励您进一步探索 Lake Formation 中的跨账户共享.
将 Lake Formation 权限扩展到新数据
在 re:Invent 2022 之前,Lake Formation 为 IAM 主体提供了对 Data Catalog 资源的权限管理,底层数据主要在 亚马逊简单存储服务 (亚马逊 S3)。 在 re:Invent 2022 上,我们介绍了 Amazon Redshift 数据共享的 Lake Formation 权限管理 在预览模式。 Amazon Redshift 是 AWS 云中的一项完全托管的 PB 级数据仓库服务。 这 数据共享功能 允许数据所有者在 Amazon Redshift 集群中对数据库、表和视图进行分组,并与 AWS 账户内或跨 AWS 账户的其他 Amazon Redshift 集群共享。 数据共享减少了在不同数据仓库中保留相同数据的多个副本以加速整个组织的业务决策制定的需要。 Lake Formation 通过提供对表和视图的细粒度访问控制,进一步增强了 Amazon Redshift 数据共享中的数据共享。
有关此功能的更多详细信息,请参阅 AWS Lake Formation 管理的 Redshift 数据共享(预览) 和 Lake Formation 如何管理 Redshift 数据共享.
亚马逊电子病历 是一个托管集群平台,可使用 Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi 和 Presto 大规模运行大数据应用程序。 您可以使用 Amazon EMR 在 S3 数据湖上运行批处理和流处理分析作业。 从 Amazon EMR 版本 6.7.0 开始,我们引入了 运行时 IAM 角色的 Lake Formation 权限管理 与 EMR Steps API 一起使用。 此功能使您能够通过 EMR Steps API 将 Apache Spark 和 Apache Hive 应用程序提交到 EMR 集群,该 API 使用 Lake Formation 对提交应用程序的 IAM 角色强制执行表级和列级权限。 Lake Formation 与 Amazon EMR 的这种集成允许您通过运行时 IAM 角色隔离您的应用程序,从而在具有不同权限的组织中的多个用户之间共享 EMR 集群。 我们鼓励您在 Lake Formation 工作坊中检查此功能 使用运行时角色与 Amazon EMR 集成. 要探索用例,请参阅 介绍 Amazon EMR 步骤的运行时角色:使用 IAM 角色和 AWS Lake Formation 进行 Amazon EMR 访问控制.
亚马逊SageMaker Studio 是用于机器学习 (ML) 的完全集成开发环境 (IDE),使数据科学家和开发人员能够为构建、训练、调整和部署模型准备数据。 Studio 提供与 Amazon EMR 的本地集成,以便数据科学家和数据工程师可以使用开源框架(例如 Apache Spark、Presto 和 Hive)使用 Studio 笔记本以交互方式准备 PB 级数据。 随着发布 运行时 IAM 角色的 Lake Formation 权限管理, Studio 现在支持使用 Lake Formation 进行表级和列级访问。 当用户从 Studio 笔记本连接到 EMR 集群时,他们可以选择 IAM 角色(称为 运行时 IAM 角色) 他们想要与之联系。 如果数据访问由 Lake Formation 管理,用户可以使用附加到运行时角色的策略强制执行表级和列级权限。 有关详细信息,请参阅 使用 Amazon SageMaker Studio 中的 AWS Lake Formation 和 Amazon EMR 应用细粒度数据访问控制.
摄取和分类各种数据
强大的数据治理模型包括来自组织的许多数据源的数据以及发现和编目这些不同数据资产的方法。 AWS Glue 爬网程序能够从 Amazon S3、Amazon Redshift 和 NoSQL 数据库等来源发现数据,并填充 AWS Glue 数据目录。
2022年,我们推出了 AWS Glue 爬虫支持 Snowflake 和 AWS Glue 爬虫支持 Delta Lake 表. 这些集成允许 AWS Glue 爬虫基于这些流行的数据源创建和更新数据目录表。 这使得基于这些 Data Catalog 表作为源和目标,使用 AWS Glue 创建提取、转换和加载 (ETL) 作业变得更加容易。
2022 年,AWS Glue 爬虫 UI 进行了重新设计,以提供更好的用户体验。 作为此修订版的一部分提供的主要增强功能之一是对 AWS Glue 爬虫历史记录的更深入了解。 爬虫历史 UI 提供了爬虫运行、计划、数据源和标签的简单视图。 对于每次爬网,爬虫历史记录都会提供数据库架构更改或 Amazon S3 分区更改的摘要。 爬虫历史记录还提供有关 DPU 小时数的详细信息,并减少分析和调试爬虫操作所花费的时间和成本。 要探索添加到爬虫 UI 的新功能,请参阅 使用增强的 AWS Glue UI 和爬虫历史设置和监控 AWS Glue 爬虫.
2022 年,我们还扩展了对基于 Amazon S3 事件通知的爬虫的支持,以支持目录表。 借助此功能,可以将增量爬行从数据管道卸载到计划的 AWS Glue 爬行程序,从而减少对增量 S3 事件的爬行。 有关详细信息,请参阅 使用现有的 Glue 目录表构建数据湖的增量爬网.
在数据湖之外共享数据的更多方法
在 re:Invent 2022 期间,我们宣布了预览 适用于 AWS Lake Formation 的 AWS 数据交换,一项新功能,使数据订阅者能够查找和订阅直接通过 Lake Formation 管理的第三方数据集。 到目前为止, AWS数据交换 订阅者可以通过将提供者的文件导出到他们自己的 S3 存储桶来访问第三方数据集,通过调用提供者的 API Amazon API网关,或从其 Amazon Redshift 集群查询生产者的 Amazon Redshift 数据共享。 通过新的 Lake Formation 集成,数据提供商可以使用 Lake Formation 标签管理 AWS Data Exchange 数据集。 数据订阅者能够查询和探索与这些标签关联的数据库和表,就像任何其他 AWS Glue 数据目录资源一样。 组织可以应用基于资源的 Lake Formation 权限,以在同一账户内或跨账户使用共享许可数据集 AWS 许可证管理器. AWS Data Exchange for Lake Formation 通过加速数据载入、减少最终用户访问第三方数据所需的 ETL 量以及集中管理第三方数据和访问控制来简化数据许可和共享操作。
在 re:Invent 2022 上,我们还宣布 亚马逊数据区,一种新的数据管理服务,使您能够更快、更轻松地编目、发现、共享和管理存储在 AWS、本地和第三方来源的数据。 Amazon DataZone 是一种业务数据目录服务,可补充 AWS Glue 数据目录中的技术元数据。 Amazon DataZone 与 Lake Formation 权限管理相集成,因此您可以有效地管理和管理对数据的访问,并审计谁在访问什么数据以及出于什么目的。 借助 Amazon DataZone 的发布者-订阅者模型,可以跨区域共享和访问数据资产。 有关该服务及其功能的更多详细信息,请参阅 亚马逊数据区常见问题 和 re:Invent 发布.
结论
数据正在改变每个领域和每个企业。 然而,随着数据的增长速度超过大多数公司可以跟踪的速度,收集、保护和从数据中获取价值是一件具有挑战性的事情。 现代数据策略可以帮助您利用数据创造更好的业务成果。 AWS 为端到端数据之旅提供最完整的服务集,帮助您释放数据的价值并将其转化为洞察力。
在 AWS,我们从客户需求出发进行逆向工作。 Lake Formation 团队努力提供本文中描述的功能,我们邀请您检查它们。 随着我们对发明的持续关注,我们希望在授权组织构建新的数据治理模型方面发挥关键作用,帮助您以闪电般的速度获得更多的商业价值。
您可以通过探索我们的网站开始使用 Lake Formation 动手工作坊 模块和 入门教程. 我们期待您,我们的客户,就您的数据湖和数据治理用例发表意见。 请通过您的 AWS 客户团队联系并分享您的意见。
作者简介
杰森伯克维茨 是 AWS Lake Formation 的高级产品经理。 他具有机器学习和数据湖架构方面的背景。 他帮助客户成为数据驱动的。
阿尔西·斯里尼瓦桑 是 AWS Lake Formation 的高级大数据架构师。 她喜欢为 AWS 客户和合作伙伴构建数据湖解决方案。 当不在键盘上时,她探索最新的科技趋势并与家人共度时光。
列昂纳多·戈麦斯(Leonardo Gomez) 是 AWS 的高级分析专家解决方案架构师。 他在加拿大多伦多工作,在数据管理方面拥有十多年的经验,帮助全球客户解决他们的业务和技术需求。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- 对,能力--
- Able
- 关于我们
- 加快
- 加速
- ACCESS
- 访问数据
- 访问
- 访问
- 账号管理
- 账户
- 横过
- 添加
- 增加
- 额外
- 地址
- 管理员
- 优点
- 允许
- Amazon
- 亚马逊电子病历
- 亚马逊SageMaker
- 量
- 分析
- 分析
- 和
- 公布
- 阿帕奇
- Apache Spark
- API
- APIs
- 应用领域
- 应用领域
- 使用
- 适当
- 架构
- 国家 / 地区
- 地区
- 围绕
- 办公室文员:
- 律师
- 相关
- 审计
- AWS
- AWS胶水
- AWS湖形成
- AWS re:Invent
- 背景
- 基于
- 成为
- 更好
- 超越
- 大
- 大数据运用
- 建立
- 建设者
- 建设者
- 建筑物
- 建
- 商业
- 企业与企业之间
- 被称为
- 调用
- 可以得到
- 加拿大
- 能力
- 案件
- 例
- 检索目录
- CCPA
- 挑战
- 挑战
- 更改
- 查
- 中国
- 云端技术
- 簇
- 收藏
- 采集
- 注释
- 公司
- 竞争的
- 完成
- 复杂
- 全面
- 分享链接
- 持续
- 控制
- 控制
- 成本
- 可以
- 覆盖
- 履带
- 创建信息图
- 习俗
- 顾客
- 合作伙伴
- data
- 数据访问
- 数据工程师
- 数据交换
- 数据湖
- 数据管理
- 数据平台
- 数据隐私
- 数据质量
- 数据科学家
- 数据共享
- 数据策略
- 数据仓库
- 数据仓库
- 数据驱动
- 数据库
- 数据库
- 数据集
- 十
- 决策
- 更深
- 交付
- 提升
- Delta
- 部署
- 描述
- 详细
- 详情
- 开发
- 研发支持
- 不同
- 直接
- 通过各种方式找到
- 每
- 更容易
- 有效
- 只
- 授权
- 使
- 使
- 鼓励
- 端至端
- 工程师
- 工程师
- 增强
- 增强
- 确保
- 保证
- 环境
- 醚(ETH)
- EU
- 甚至
- 活动
- 事件
- 所有的
- 交换
- 兴奋
- 现有
- 扩大
- 体验
- 探索
- 探索
- 表达式
- 提取
- 家庭
- 快
- 专栏
- 特征
- 反馈
- 少数
- 部分
- 档
- 找到最适合您的地方
- 结束
- 姓氏:
- 专注焦点
- 以下
- 训练
- 向前
- 基金会
- 框架
- 止
- 充分
- 功能
- 进一步
- 《通用数据保护条例》(GDPR)
- 发电
- 得到
- 越来越
- 地球
- 去
- 治理
- 授予
- 更大的
- 团队
- 成长
- 处理
- 快乐
- 硬
- 健康管理
- 听力
- 帮助
- 帮助
- 帮助
- 历史
- 蜂房
- 抱有希望
- HOURS
- 创新中心
- 但是
- HTML
- HTTPS
- IAM
- 身分
- 履行
- 重要
- 改善
- 提高
- 改善
- in
- 其他
- 包括
- 包含
- 增加
- 日益
- info
- 信息
- 洞察
- 可行的洞见
- 集成
- 积分
- 集成
- 有兴趣
- 介绍
- 介绍
- 邀请
- IT
- 工作机会
- 旅程
- 保持
- 键
- 湖泊
- 最新
- 推出
- 领导者
- 学习用品
- 学习
- Level
- 执照
- 行货
- 许可证
- 闪电
- 闪电般的速度
- 加载
- 看
- 机
- 机器学习
- 制成
- 主要
- 制作
- 制作
- 管理
- 管理
- 颠覆性技术
- 经理
- 许多
- 元数据
- 方法
- 方法
- ML
- 时尚
- 模型
- 模型
- 现代
- 模块
- 显示器
- 更多
- 最先进的
- 多
- 名称
- 本地人
- 需求
- 需要
- 全新
- 新功能
- 笔记本电脑
- 通知
- 十一月
- 新
- 债券
- 提供
- 优惠精选
- 前期洽谈
- 一
- 开放源码
- 运营
- ZAP优势
- 组织
- 组织
- 其他名称
- 己
- 业主
- 部分
- 伙伴
- PBS
- 允许
- 权限
- 拍字节
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 请
- 政策
- 热门
- 个人档案
- 可能
- 帖子
- Prepare
- 呈现
- 预览
- 主要
- 隐私
- 过程
- 处理
- 产品
- 产品经理
- 进展
- 提供
- 提供
- 供应商
- 提供
- 优
- 出版
- 目的
- 质量
- 内存
- RE
- 承认
- 建议
- 减少
- 减少
- 地区
- 法规
- 监管
- 释放
- 去除
- 必须
- 岗位要求
- 资源
- 资源
- REST的
- 检讨
- 风险
- 健壮
- 角色
- 角色
- 运行
- 俄罗斯
- sagemaker
- 同
- 鳞片
- 预定
- 科学
- 科学与技术
- 科学家
- 科学家
- 无缝
- 其次
- 安全
- 保障
- 前辈
- 服务
- 特色服务
- 集
- Share
- 共用的,
- 分享
- 共享
- 简易
- So
- 方案,
- 解决方案
- 解决
- 一些
- 来源
- 来源
- 火花
- 专家
- 具体的
- 速度
- 花费
- 利益相关者
- 爆
- 开始
- 开始
- 步骤
- 存储
- 存储
- 策略
- 流
- 工作室
- 提交
- 订阅
- 用户
- 这样
- 总结
- 概要
- SUPPORT
- 支持
- 产品
- 会谈
- 目标
- 团队
- 队
- 文案
- 专业技术
- 其
- 事
- 第三方
- 通过
- 始终
- 次
- 至
- 多伦多
- 触摸
- 跟踪时
- 产品培训
- 改造
- 转型
- 趋势
- 转
- ui
- 相关
- 理解
- 统一
- 独特
- 开锁
- 更新
- 使用
- 用例
- 用户
- 用户体验
- 用户
- 折扣值
- 版本
- 查看
- 意见
- 仓库保管
- 方法
- 什么是
- 是否
- WHO
- 中
- 工作
- 工作
- 车间
- 工作坊
- 写作
- 年
- 您一站式解决方案
- YouTube的
- 和风网