亚马逊Redshift 是一个快速、可扩展、安全且完全托管的数据仓库,使您能够使用标准 SQL 轻松且经济高效地分析所有数据。 亚马逊红移 数据共享 允许客户跨帐户和区域在一个 Amazon Redshift 集群与另一个 Amazon Redshift 集群中安全地共享实时、事务一致的数据,而无需将数据从一个集群复制或移动到另一个集群。
Amazon Redshift 数据共享最初于 2021 年 XNUMX 月,并在中添加了对跨账户数据共享的支持 2021年XNUMX月. 跨区域支持在 二月 二零二二年. 这提供了充分的灵活性和敏捷性,可以在同一 AWS 账户、不同账户或不同区域中跨 Redshift 集群共享数据。
Amazon Redshift 数据共享用于从根本上将 Amazon Redshift 部署架构重新定义为中心辐射式数据网格模型,以更好地满足性能 SLA、提供工作负载隔离、执行跨组分析、轻松加入新用例,最重要的是做所有的这没有数据移动和数据复制的复杂性。 在数据共享部署过程中,一些最常见的问题是“我的消费者集群和生产者集群应该有多大?”,以及“如何获得工作负载隔离的最佳性价比?”。 由于数据大小、摄取率、查询模式和维护活动等工作负载特征会影响数据共享性能,因此应实施持续的策略来调整消费者和生产者集群的规模,以最大化性能和最小化成本。 在这篇文章中,我们提供了一种循序渐进的方法来帮助您根据您的特定工作负载确定您的生产者和消费者集群规模以获得最佳性价比。
通用消费者尺码指南
以下步骤显示了调整生产者和消费者集群规模的通用策略。 您可以将其用作起点并进行相应修改以满足您的特定用例场景。
调整您的生产者集群
您应该始终确保正确调整生产者集群的大小以获得满足 SLA 所需的性能。 您可以利用 Amazon Redshift 控制台中的大小计算器,根据您的数据大小和查询特征获得生产者集群的建议。 寻找 帮我选 在支持 RA3 节点类型的 AWS 区域的控制台上使用此大小计算器。 请注意,这只是入门的初始建议,您应该在初始大小的集群上测试运行全部工作负载,并相应地弹性调整集群大小以获得最佳性价比。
大小和设置初始消费者集群
您应该始终根据您的计算需求调整您的消费者集群。 一种入门方法是遵循类似于上述生产者集群的通用集群大小调整指南。
设置 Amazon Redshift 数据共享
设置生产者和消费者集群后,设置从生产者到消费者的数据共享。 参考这个 发表 有关如何设置数据共享的指导。
在初始消费者集群上测试仅消费者工作负载
在新的初始消费者集群上测试仅消费者工作负载。 这可以通过将消费者应用程序(例如 ETL 工具、BI 应用程序和 SQL 客户端)指向新的消费者集群并重新运行工作负载以根据您的要求评估性能来完成。
在不同的消费者集群配置上测试仅消费者的工作负载
如果初始大小的消费者集群满足或超过您的工作负载性能要求,那么您可以继续使用此集群配置,或者您可以在较小的配置上进行测试,看看是否可以进一步降低成本并仍然获得所需的性能。
另一方面,如果初始大小的消费者集群无法满足您的工作负载性能要求,那么您可以进一步测试更大的配置以获得满足您的 SLA 的配置。
根据经验,将消费者集群的大小逐渐增加到初始集群配置的 2 倍,直到它满足您的工作负载要求。
计划好要测试的配置后,使用弹性调整大小将初始集群的大小调整为目标集群配置。 弹性调整大小完成后,执行相同的工作负载测试并根据您的 SLA 评估性能。 选择符合您的性价比目标的配置。
仅测试生产者在不同生产者集群配置上的工作负载
将消费者工作负载转移到具有最佳性价比的消费者集群后,可能有机会减少生产者的计算资源以节省成本。
为实现这一点,您可以在原始生产者大小的 1/2 倍上重新运行仅生产者工作负载,并评估工作负载性能。 根据结果相应地调整集群大小,然后选择满足工作负载性能要求的最小生产者配置。
在一段时间内运行完整的工作负载后重新评估
随着 Amazon Redshift 的不断发展,以及持续的性能和可扩展性改进版本,数据共享性能将不断提高。 此外,许多变量可能会影响数据共享查询的性能。 以下只是一些例子:
- 摄取率和数据量变化
- 查询模式和特征
- 工作负载变化
- 并发
- 维护活动,例如抽真空、分析和 ATO
这就是为什么您有时必须使用上述策略重新评估生产者和消费者集群的规模,尤其是在完全部署工作负载之后,以便从集群的配置中获得新的最佳性价比。
自动尺寸解决方案
如果您的环境涉及更复杂的架构,例如具有多个工具或应用程序(BI、摄取或流、ETL、数据科学),那么使用上述通用指南中的手动方法可能不可行。 相反,您可以利用本节中的解决方案在测试消费者和生产者集群上自动重放生产集群的工作负载以评估性能。
简单重放实用程序 将用作自动化解决方案,指导您完成获得合适的生产者和消费者集群规模以获得最佳性价比的过程。
Simple Replay 是一种用于进行假设分析和评估您的工作负载在不同场景中的表现的工具。 例如,您可以使用该工具在 RA3 等新实例类型上对您的实际工作负载进行基准测试、评估新功能或评估不同的集群配置。 它还包括对使用 COPY 和 UNLOAD 语句重放数据摄取和导出管道的增强支持。 要开始并重放您的工作负载,请从 Amazon Redshift GitHub 存储库.
在这里,我们将逐步完成从源生产集群中提取工作负载日志并在隔离环境中重播它们的步骤。 这使您可以无缝地对这些 Amazon Redshift 集群进行直接比较,并选择最能满足您的性价比目标的集群配置。
下图显示了解决方案体系结构。
解决方案演练
按照以下步骤通过解决方案来调整消费者和生产者集群的规模。
调整您的生产集群
您应该始终确保适当调整现有生产集群的大小,以获得满足工作负载要求所需的性能。 您可以利用 Amazon Redshift 控制台中的大小计算器,根据您的数据大小和查询特征获得有关生产集群的建议。 寻找 帮我选 在支持 RA3 节点类型的 AWS 区域的控制台上使用此大小计算器。 请注意,这只是入门的初步建议。 您应该在初始大小的集群上测试运行您的全部工作负载,并相应地弹性调整集群大小以获得最佳性价比。
确定要隔离的工作负载
您可能在原始集群上运行不同的工作负载,但第一步是确定我们要隔离的对业务最关键的工作负载。 这是因为我们要确保新架构能够满足您的工作负载要求。 这 发表 是有关数据共享工作负载隔离用例的很好参考,可帮助您决定可以隔离哪些工作负载。
设置简单重播
一旦您了解了您的关键工作量,您必须 启用审计日志 在您的生产集群中,上面确定的关键工作负载正在运行以捕获查询活动并存储在 亚马逊简单存储服务(Amazon S3). 请注意,将审核日志传送到 Amazon S3 最多可能需要三个小时。 审核日志可用后,继续 设置简单重播 然后 提取 来自审计日志的关键工作负载。 请注意,如果关键工作负载在特定时间段(例如上午 9 点到上午 11 点)运行,则可以将 start_time 和 end_time 用作过滤掉关键工作负载的参数。 否则它将提取所有记录的活动。
基准工作量
通过从生产快照恢复,创建一个与生产者集群具有相同配置的基线集群。 以相同配置开始的目的是在隔离环境中建立性能基线。
一旦基准集群可用, 重播 基线集群中提取的工作负载。 此回放的输出将作为基线,用于与不同消费者配置上的后续回放进行比较。
设置初始生产者和消费者测试集群
通过从生产快照恢复来创建具有相同生产集群配置的生产者集群。 使用先前指南中建议的初始消费者大小创建消费者集群。 此外,设置生产者和消费者之间的数据共享。
初始生产者和消费者的重放工作量
重播 生产者仅在初始大小的生产者集群上工作。 这可以使用“排除”过滤器参数排除消费者查询来实现,例如运行消费者查询的用户。
重播 消费者仅在初始大小的消费者集群上工作。 这可以使用“包括”过滤器参数来排除消费者查询来实现,例如运行消费者查询的用户。
根据基线和工作负载性能要求评估这些回放的性能。
在不同配置上重放消费者工作负载
如果初始大小的消费者集群满足或超过您的工作负载性能要求,那么您可以使用此集群配置,也可以按照以下步骤在较小的配置上进行测试,看看是否可以进一步降低成本并仍然获得所需的性能。
将初始消费者性能结果与您的工作负载要求进行比较:
- 如果结果超出您的工作负载性能要求,那么您可以逐步减小消费者集群的大小,从 1/2x 开始,重试重放并评估性能,然后根据结果相应地调整大小,直到满足您的工作负载要求。 目的是获得一个最佳点,您可以在其中满足性能要求并获得尽可能低的价格。
- 如果结果无法满足您的工作负载性能要求,那么您可以逐步增加集群的大小,从原始大小的 2 倍开始,重试重放并评估性能,直到它满足您的工作负载性能要求。
不同配置上的回放生产者工作负载
将工作负载分配给消费者集群后,生产者集群上的负载应该会减少,您应该评估生产者集群的工作负载性能,以寻求缩小规模以节省成本的机会。
这些步骤类似于消费者重播。 Elastic 从原始大小的 1/2 开始逐步调整生产者集群的大小,仅重放生产者的工作负载并评估性能,然后进一步调整大小直到满足您的工作负载性能要求。 目的是获得一个最佳点,您可以在其中满足工作负载性能要求并获得尽可能低的价格。 获得所需的生产者集群配置后,重试在消费者集群上重放消费者工作负载,以确保性能不会受到生产者集群配置更改的影响。 最后,您应该同时重放生产者和消费者工作负载,以确保在完整工作负载场景中实现性能。
在一段时间内运行完整的工作负载后重新评估
与通用指南类似,您应该偶尔使用以前的策略重新评估生产者和消费者集群的规模,尤其是在完全工作负载部署之后,以便从您的集群配置中获得新的最佳性价比。
清理
在您的 AWS 账户中运行这些规模测试可能会产生一些成本影响,因为它会配置新的 Amazon Redshift 集群,如果您没有预留实例,这些集群可能会作为按需实例收费。 当您完成评估后,我们建议删除 Amazon Redshift 集群以节省成本。 我们还建议在不使用时暂停集群。
应用 Amazon Redshift 和数据共享最佳实践
适当调整生产者和消费者集群的规模将为您提供一个良好的开端,让您从 Amazon Redshift 部署中获得最佳性价比。 但是,调整大小并不是可以最大化您的性能的唯一因素。 在这种情况下,理解和遵循最佳实践同样重要。
一般 Amazon Redshift 性能调整最佳实践适用于数据共享部署。 确保您的部署遵循这些 最佳实践.
有许多数据共享特定的最佳实践,您应该遵循这些最佳实践以确保最大限度地提高性能。 参考这个 发表 以获得更多细节。
总结
没有关于生产者和消费者集群规模的千篇一律的建议。 它因工作负载和您的性能 SLA 而异。 这篇文章的目的是为您提供有关如何评估特定数据共享工作负载性能以确定消费者和生产者集群规模以获得最佳性价比的指导。 在将其用于生产以获得最佳性价比之前,请考虑使用简单重播在生产者和消费者上测试您的工作负载。
作者简介
BP丘 是 AWS 的高级产品经理。 他热衷于帮助客户构建大数据解决方案以大规模处理数据。 在加入 AWS 之前,他帮助 Amazon.com Supply Chain Optimization Technologies 将其 Oracle 数据仓库迁移到 Amazon Redshift 并使用 AWS 技术构建其下一代大数据分析平台。
Sidhanth 穆拉里达尔 是 AWS 的首席技术客户经理。 他与在 AWS 上运行工作负载的大型企业客户合作。 他热衷于与客户合作,帮助他们在云之旅中大规模设计工作负载,以实现成本、可靠性、性能和卓越运营。 他对数据分析也很感兴趣。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/big-data/how-to-get-best-price-performance-from-your-amazon-redshift-data-sharing-deployment/
- 100
- a
- 关于
- 以上
- 因此
- 账号管理
- 账户
- 实现
- 横过
- 活动
- 添加
- 采用
- 后
- 驳
- 所有类型
- 允许
- 时刻
- Amazon
- Amazon.com
- 量
- 分析
- 分析
- 分析
- 和
- 另一个
- 相应
- 应用领域
- 的途径
- 架构
- 审计
- 自动化
- 自动
- 可使用
- AWS
- 基于
- 底线
- 因为
- before
- 基准
- 最佳
- 最佳实践
- 更好
- 之间
- 大
- 大数据运用
- 建立
- 商业
- 捕获
- 案件
- 例
- 一定
- 链
- 更改
- 特点
- 特点
- 带电
- 客户
- 云端技术
- 簇
- COM的
- 舒适
- 相当常见
- 比较
- 对照
- 完成
- 完成
- 复杂
- 复杂
- 计算
- 开展
- 配置
- 考虑
- 一贯
- 安慰
- 消费者
- 继续
- 继续
- 连续
- 价格
- 成本
- 可以
- 创建信息图
- 危急
- 合作伙伴
- data
- 数据分析
- 数据科学
- 数据共享
- 提升
- 依靠
- 部署
- 详情
- 确定
- 不同
- 直接
- 别
- 向下
- 下载
- ,我们将参加
- 容易
- 或
- 使
- 增强
- 企业
- 环境
- 一样
- 特别
- 醚(ETH)
- 评估
- 评价
- 演变
- 例子
- 例子
- 超过
- 追求卓越
- 现有
- 出口
- 提取
- 失败
- 高效率
- 可行
- 专栏
- 过滤
- 终于
- 姓氏:
- 高度灵活
- 遵循
- 以下
- 如下
- 止
- ,
- 从根本上
- 进一步
- 此外
- Gain增益
- 通常
- 代
- 得到
- 越来越
- GitHub上
- 给
- Go
- 非常好
- 谷歌
- 指南
- 帮助
- 帮助
- 帮助
- HOURS
- 创新中心
- How To
- 但是
- HTTPS
- 确定
- 鉴定
- 影响力故事
- 影响
- 实施
- 启示
- 重要
- 改进
- 改善
- in
- 包括
- 增加
- 初始
- 原来
- 例
- 代替
- 兴趣
- 参与
- 孤立
- 隔离
- IT
- 旅程
- 敏锐
- 知道
- 大
- 大
- 推出
- 让
- 杠杆作用
- 生活
- 加载
- 看
- 保养
- 使
- 经理
- 手册
- 生产力
- 满足
- 会见
- 方法
- 可能
- 迁移
- 最低限度
- 模型
- 更多
- 最先进的
- 移动
- 运动
- 多
- 需求
- 需要
- 需要
- 全新
- 下页
- 节点
- 众多
- 场合
- 板载
- 一
- 操作
- ZAP优势
- 优化
- 最佳
- 神谕
- 原版的
- 其他名称
- 除此以外
- 参数
- 参数
- 多情
- 模式
- 演出
- 性能
- 施行
- 期
- 计划
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 点
- 可能
- 帖子
- 做法
- 以前
- 车资
- 校长
- 过程
- 制片人
- 产品
- 产品经理
- 生产
- 正确
- 提供
- 提供
- 目的
- 问题
- 率
- 建议
- 推荐
- 建议
- 减少
- 减少
- 地区
- 发布
- 可靠性
- 岗位要求
- 保留的
- 资源
- 恢复
- 导致
- 成果
- 第
- 运行
- 运行
- 同
- 保存
- 可扩展性
- 可扩展性
- 鳞片
- 情景
- 科学
- 无缝
- 部分
- 安全
- 安全
- 寻找
- 服务
- 格局
- Share
- 共享
- 应该
- 显示
- 作品
- 类似
- 简易
- 尺寸
- 尺寸
- 小
- 快照
- 方案,
- 解决方案
- 一些
- 来源
- 具体的
- 分裂
- Spot
- 标准
- 开始
- 开始
- 开始
- 声明
- 步
- 步骤
- 仍
- 存储
- 商店
- 策略
- 流
- 随后
- 供应
- 供应链
- 供应链优化
- SUPPORT
- 甜
- 采取
- 目标
- 文案
- 技术
- test
- 测试
- 测试
- 其
- 三
- 通过
- 次
- 至
- 工具
- 工具
- 类型
- 理解
- 使用
- 用例
- 用户
- 真空
- 什么是
- 这
- WHO
- 将
- 也完全不需要
- 加工
- 合作
- 您一站式解决方案
- 和风网