Amazon Redshift 데이터 공유 배포에서 최고의 가격 대비 성능을 얻는 방법

플라톤에 의해 재발행

팔로워 : 0

아마존 레드 시프트 빠르고 확장 가능하며 안전하고 완벽하게 관리되는 데이터 웨어하우스로서 표준 SQL을 사용하여 쉽고 비용 효율적으로 모든 데이터를 분석할 수 있습니다. 아마존 레드시프트 데이터 공유 고객은 한 클러스터에서 다른 클러스터로 데이터를 복사하거나 이동할 필요 없이 한 Amazon Redshift 클러스터에서 다른 Amazon Redshift 클러스터와 계정 및 리전에 걸쳐 트랜잭션이 일관된 라이브 데이터를 안전하게 공유할 수 있습니다.

Amazon Redshift 데이터 공유는 처음에 2021월 XNUMX, 교차 계정 데이터 공유에 대한 지원이 추가되었습니다. 2021년 XNUMX월에. 교차 지역 지원은 일반적으로 사용할 수 있게 되었습니다. 2월 2022. 이는 동일한 AWS 계정, 다른 계정 또는 다른 지역에 있는 Redshift 클러스터 간에 데이터를 공유할 수 있는 완전한 유연성과 민첩성을 제공합니다.

Amazon Redshift Data Sharing은 Amazon Redshift 배포 아키텍처를 허브 스포크 데이터 메시 모델로 근본적으로 재정의하여 성능 SLA를 더 잘 충족하고, 워크로드 격리를 제공하고, 그룹 간 분석을 수행하고, 새로운 사용 사례를 쉽게 온보딩하고, 가장 중요한 모든 작업을 수행하는 데 사용됩니다. 이것은 데이터 이동 및 데이터 복사의 복잡성 없이 가능합니다. 데이터 공유 배포 중에 묻는 가장 일반적인 질문 중 일부는 "소비자 클러스터와 생산자 클러스터의 크기는 얼마나 되어야 합니까?" 및 "워크로드 격리를 위해 최상의 가격 대비 성능을 얻으려면 어떻게 해야 합니까?"입니다. 데이터 크기, 수집 속도, 쿼리 패턴 및 유지 관리 활동과 같은 워크로드 특성이 데이터 공유 성능에 영향을 미칠 수 있으므로 성능을 최대화하고 비용을 최소화하기 위해 소비자 및 생산자 클러스터 모두의 크기를 조정하는 지속적인 전략을 구현해야 합니다. 이 게시물에서는 특정 워크로드를 기반으로 최상의 가격 대비 성능을 위해 생산자 및 소비자 클러스터 크기를 결정하는 데 도움이 되는 단계별 접근 방식을 제공합니다.

일반 소비자 사이징 지침

다음 단계는 생산자 및 소비자 클러스터의 크기를 조정하는 일반적인 전략을 보여줍니다. 이를 시작점으로 사용하고 그에 따라 수정하여 특정 사용 사례 시나리오를 충족할 수 있습니다.

생산자 클러스터 크기 조정

SLA를 충족하는 데 필요한 성능을 얻으려면 생산자 클러스터의 크기를 적절하게 조정해야 합니다. Amazon Redshift 콘솔에서 크기 조정 계산기를 활용하여 데이터 및 쿼리 특성의 크기를 기반으로 생산자 클러스터에 대한 권장 사항을 얻을 수 있습니다. 찾다 내가 선택하도록 도와주세요. RA3 노드 유형을 지원하는 AWS 리전의 콘솔에서 이 크기 계산기를 사용하십시오. 이것은 시작하기 위한 초기 권장 사항일 뿐이며 초기 크기 클러스터에서 전체 워크로드 실행을 테스트하고 그에 따라 클러스터 크기를 탄력적으로 조정하여 최상의 가격 대비 성능을 얻어야 합니다.

초기 소비자 클러스터 크기 및 설정

항상 컴퓨팅 요구 사항에 따라 소비자 클러스터의 크기를 조정해야 합니다. 시작하는 한 가지 방법은 위의 생산자 클러스터와 유사한 일반 클러스터 크기 조정 가이드를 따르는 것입니다.

Amazon Redshift 데이터 공유 설정

생산자와 소비자 클러스터가 모두 설정되면 생산자에서 소비자로 데이터 공유를 설정하십시오. 이것을 참조하십시오 게시 데이터 공유를 설정하는 방법에 대한 안내.

초기 소비자 클러스터에서 소비자 전용 워크로드 테스트

새로운 초기 소비자 클러스터에서 소비자 전용 워크로드를 테스트합니다. 이는 소비자 애플리케이션(예: ETL 도구, BI 애플리케이션 및 SQL 클라이언트)을 새 소비자 클러스터로 지정하고 워크로드를 다시 실행하여 요구 사항에 대한 성능을 평가함으로써 수행할 수 있습니다.

다양한 소비자 클러스터 구성에서 소비자 전용 워크로드 테스트

초기 크기 소비자 클러스터가 워크로드 성능 요구 사항을 충족하거나 초과하는 경우 이 클러스터 구성을 계속 사용하거나 더 작은 구성에서 테스트하여 비용을 추가로 줄이고 필요한 성능을 얻을 수 있는지 확인할 수 있습니다.

반면에 초기 크기의 소비자 클러스터가 워크로드 성능 요구 사항을 충족하지 못하는 경우 더 큰 구성을 추가로 테스트하여 SLA를 충족하는 구성을 얻을 수 있습니다.

일반적으로 워크로드 요구 사항을 충족할 때까지 점진적으로 초기 클러스터 구성의 2배로 소비자 클러스터의 크기를 늘립니다.

테스트할 구성을 계획했으면 탄력적 크기 조정을 사용하여 초기 클러스터의 크기를 대상 클러스터 구성으로 조정합니다. 탄력적 크기 조정이 완료되면 동일한 워크로드 테스트를 수행하고 SLA에 대한 성능을 평가합니다. 가격 대비 성능 목표를 충족하는 구성을 선택하십시오.

다른 생산자 클러스터 구성에서 생산자 전용 워크로드 테스트

소비자 워크로드를 최적의 가격 대비 성능을 갖춘 소비자 클러스터로 이동하면 생산자의 컴퓨팅 리소스를 줄여 비용을 절감할 수 있는 기회가 있을 수 있습니다.

이를 달성하기 위해 원래 생산자 크기의 1/2x에서 생산자 전용 워크로드를 다시 실행하고 워크로드 성능을 평가할 수 있습니다. 결과에 따라 클러스터 크기를 위아래로 조정한 다음 워크로드 성능 요구 사항을 충족하는 최소 생산자 구성을 선택합니다.

시간 경과에 따라 전체 워크로드 실행 후 재평가

Amazon Redshift가 계속 진화하고 지속적인 성능 및 확장성 개선 릴리스가 있으므로 데이터 공유 성능은 계속해서 향상될 것입니다. 또한 수많은 변수가 데이터 공유 쿼리의 성능에 영향을 미칠 수 있습니다. 다음은 몇 가지 예입니다.

수집율 및 데이터 변화량
쿼리 패턴 및 특성
워크로드 변경
동시성
유지보수 활동(예: 진공, 분석 및 ATO)

그렇기 때문에 클러스터 구성에서 새로운 최상의 가격 대비 성능을 얻으려면 특히 전체 워크로드 배포 후에 위의 전략을 사용하여 생산자 및 소비자 클러스터 크기 조정을 재평가해야 합니다.

자동화된 사이징 솔루션

예를 들어 여러 도구 또는 애플리케이션(BI, 수집 또는 스트리밍, ETL, 데이터 과학)이 포함된 더 복잡한 아키텍처가 환경에 포함된 경우 위의 일반 지침에서 수동 방법을 사용하는 것이 적합하지 않을 수 있습니다. 대신 이 섹션의 솔루션을 활용하여 테스트 소비자 및 생산자 클러스터에서 프로덕션 클러스터의 워크로드를 자동으로 재생하여 성능을 평가할 수 있습니다.

단순 재생 유틸리티 최고의 가격 대비 성능을 위해 올바른 생산자 및 소비자 클러스터 크기를 얻는 프로세스를 안내하는 자동화된 솔루션으로 활용됩니다.

Simple Replay는 what-if 분석을 수행하고 다양한 시나리오에서 워크로드가 수행되는 방식을 평가하기 위한 도구입니다. 예를 들어 이 도구를 사용하여 RA3와 같은 새로운 인스턴스 유형에서 실제 워크로드를 벤치마킹하거나 새로운 기능을 평가하거나 다른 클러스터 구성을 평가할 수 있습니다. 또한 COPY 및 UNLOAD 문을 사용하여 데이터 수집 재생 및 내보내기 파이프라인에 대한 향상된 지원을 포함합니다. 워크로드를 시작하고 재생하려면 다음에서 도구를 다운로드하십시오. Amazon Redshift GitHub 리포지토리.

여기서는 소스 프로덕션 클러스터에서 워크로드 로그를 추출하고 격리된 환경에서 재생하는 단계를 안내합니다. 이를 통해 이러한 Amazon Redshift 클러스터를 원활하게 직접 비교하고 가격 대비 성능 목표에 가장 적합한 클러스터 구성을 선택할 수 있습니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

단순 리플레이 테스트를 위한 설계자

솔루션 연습

솔루션을 통해 소비자 및 생산자 클러스터의 크기를 조정하려면 다음 단계를 따르십시오.

프로덕션 클러스터 크기 조정

워크로드 요구 사항을 충족하는 데 필요한 성능을 얻으려면 항상 기존 프로덕션 클러스터의 크기를 적절하게 조정해야 합니다. Amazon Redshift 콘솔에서 크기 조정 계산기를 활용하여 데이터 및 쿼리 특성의 크기를 기반으로 프로덕션 클러스터에 대한 권장 사항을 얻을 수 있습니다. 찾다 내가 선택하도록 도와주세요. RA3 노드 유형을 지원하는 AWS 리전의 콘솔에서 이 크기 계산기를 사용하십시오. 이는 시작하기 위한 초기 권장사항일 뿐입니다. 초기 크기 클러스터에서 전체 워크로드 실행을 테스트하고 최적의 가격 대비 성능을 얻으려면 그에 따라 클러스터 크기를 탄력적으로 조정해야 합니다.

격리할 워크로드 식별

원래 클러스터에서 실행 중인 워크로드가 다를 수 있지만 첫 번째 단계는 격리하려는 비즈니스에 가장 중요한 워크로드를 식별하는 것입니다. 새 아키텍처가 워크로드 요구 사항을 충족할 수 있는지 확인하기 때문입니다. 이것 게시 격리할 수 있는 워크로드를 결정하는 데 도움이 되는 데이터 공유 워크로드 격리 사용 사례에 대한 좋은 참고 자료입니다.

단순 재생 설정

중요한 워크로드를 알게 되면 다음을 수행해야 합니다. 감사 로깅 활성화 위에 식별된 중요한 워크로드가 쿼리 활동을 캡처하고 Amazon Simple Storage Service(Amazon S3). 감사 로그가 Amazon S3에 전달되는 데 최대 XNUMX시간이 걸릴 수 있습니다. 감사 로그를 사용할 수 있게 되면 다음으로 진행합니다. 단순 리플레이 설정 그리고 추출물 감사 로그의 중요한 워크로드. 중요한 작업 부하가 특정 시간(예: 오전 9시~오전 11시)에 실행되는 경우 start_time 및 end_time을 매개 변수로 사용하여 중요한 작업 부하를 걸러낼 수 있습니다. 그렇지 않으면 기록된 모든 활동을 추출합니다.

기준 워크로드

프로덕션 스냅샷에서 복원하여 생산자 클러스터와 동일한 구성으로 기준 클러스터를 만듭니다. 동일한 구성으로 시작하는 목적은 격리된 환경으로 성능의 기준을 설정하는 것입니다.

기준 클러스터를 사용할 수 있게 되면 재생 기준 클러스터에서 추출된 워크로드. 이 리플레이의 출력은 다른 소비자 구성의 후속 리플레이와 비교하는 데 사용되는 기준선이 됩니다.

초기 생산자 및 소비자 테스트 클러스터 설정

프로덕션 스냅샷에서 복원하여 동일한 프로덕션 클러스터 구성으로 프로듀서 클러스터를 생성합니다. 이전 지침에서 권장하는 초기 소비자 크기로 소비자 클러스터를 생성합니다. 또한 생산자와 소비자 간의 데이터 공유를 설정합니다.

초기 생산자 및 소비자에 대한 재생 워크로드

재생 초기 크기 생산자 클러스터의 생산자 전용 워크로드. 이는 소비자 쿼리(예: 소비자 쿼리를 실행하는 사용자)를 제외하는 "제외" 필터 매개 변수를 사용하여 달성할 수 있습니다.

재생 초기 크기 소비자 클러스터의 소비자 전용 워크로드. 이는 소비자 쿼리(예: 소비자 쿼리를 실행하는 사용자)를 제외하는 "Include" 필터 매개 변수를 사용하여 달성할 수 있습니다.

기준선 및 워크로드 성능 요구 사항에 대해 이러한 재생의 성능을 평가합니다.

다양한 구성에서 소비자 워크로드 재생

초기 크기 소비자 클러스터가 워크로드 성능 요구 사항을 충족하거나 초과하는 경우 이 클러스터 구성을 사용하거나 다음 단계에 따라 더 작은 구성에서 테스트하여 비용을 추가로 절감하면서도 여전히 필요한 성능을 얻을 수 있는지 확인할 수 있습니다.

초기 소비자 성능 결과를 워크로드 요구 사항과 비교하십시오.

결과가 워크로드 성능 요구 사항을 초과하는 경우 1/2x부터 시작하여 점진적으로 소비자 클러스터의 크기를 줄이고 재생을 다시 시도하고 성능을 평가한 다음 결과에 따라 워크로드를 충족할 때까지 크기를 늘리거나 줄일 수 있습니다. 요구 사항. 그 목적은 성능 요구 사항에 만족하는 스윗 스팟을 확보하고 가능한 최저 가격을 얻는 것입니다.
결과가 워크로드 성능 요구 사항을 충족하지 못하는 경우 원래 크기의 2배부터 시작하여 클러스터 크기를 점진적으로 늘리고 재생을 다시 시도하고 워크로드 성능 요구 사항을 충족할 때까지 성능을 평가할 수 있습니다.

다양한 구성에서 재생 생산자 워크로드

워크로드를 소비자 클러스터로 분할하면 생산자 클러스터의 부하가 줄어들고 생산자 클러스터의 워크로드 성능을 평가하여 크기를 줄여 비용을 절감할 수 있는 기회를 찾아야 합니다.

단계는 소비자 재생과 유사합니다. 탄력적으로 생산자 클러스터의 크기를 원래 크기의 1/2배부터 점진적으로 조정하고, 생산자 전용 워크로드를 재생하고 성능을 평가한 다음, 워크로드 성능 요구 사항을 충족할 때까지 추가로 크기를 늘리거나 줄입니다. 그 목적은 워크로드 성능 요구 사항에 만족하고 가능한 최저 가격을 얻을 수 있는 스윗 스팟을 얻는 것입니다. 원하는 생산자 클러스터 구성이 있으면 소비자 클러스터에서 소비자 워크로드 재생을 다시 시도하여 성능이 생산자 클러스터 구성 변경에 의해 영향을 받지 않았는지 확인합니다. 마지막으로 전체 워크로드 시나리오에서 성능이 달성되도록 생산자 및 소비자 워크로드를 동시에 재생해야 합니다.

시간 경과에 따라 전체 워크로드 실행 후 재평가

일반 지침과 유사하게 클러스터 구성에서 새로운 최상의 가격 대비 성능을 얻으려면 특히 전체 워크로드 배포 후에 이전 전략을 사용하여 생산자 및 소비자 클러스터 크기 조정을 재평가해야 합니다.

정리

AWS 계정에서 이러한 크기 조정 테스트를 실행하면 예약 인스턴스가 없는 경우 온디맨드 인스턴스로 요금이 부과될 수 있는 새로운 Amazon Redshift 클러스터를 프로비저닝하기 때문에 약간의 비용 영향이 있을 수 있습니다. 평가를 완료하면 Amazon Redshift 클러스터를 삭제하여 비용을 절감하는 것이 좋습니다. 또한 사용하지 않을 때는 클러스터를 일시 중지하는 것이 좋습니다.

Amazon Redshift 및 데이터 공유 모범 사례 적용

생산자 클러스터와 소비자 클러스터의 크기를 적절히 조정하면 Amazon Redshift 배포에서 최고의 가격 대비 성능을 얻을 수 있습니다. 그러나 성능을 극대화할 수 있는 요소는 크기 조정만이 아닙니다. 이 경우 모범 사례를 이해하고 따르는 것이 똑같이 중요합니다.

일반 Amazon Redshift 성능 튜닝 모범 사례는 데이터 공유 배포에 적용할 수 있습니다. 배포가 다음을 따르는지 확인하십시오. 모범 사례.

성능을 최대화하기 위해 따라야 하는 수많은 데이터 공유 특정 모범 사례가 있습니다. 이것을 참조하십시오 게시 자세한 내용은.

요약

생산자 및 소비자 클러스터 크기에 대한 단일 크기 권장 사항은 없습니다. 워크로드 및 성능 SLA에 따라 다릅니다. 이 게시물의 목적은 최상의 가격 대비 성능을 얻기 위해 소비자 및 생산자 클러스터 크기를 결정하기 위해 특정 데이터 공유 워크로드 성능을 평가하는 방법에 대한 지침을 제공하는 것입니다. 최상의 가격 대비 성능을 얻으려면 프로덕션에 채택하기 전에 단순 재생을 사용하여 생산자와 소비자에서 워크로드를 테스트하는 것을 고려하십시오.

저자에 관하여

BP 야우 AWS의 수석 제품 관리자입니다. 그는 고객이 데이터를 대규모로 처리할 수 있도록 빅 데이터 솔루션을 설계하도록 돕는 데 열정을 쏟고 있습니다. AWS 이전에 그는 Amazon.com Supply Chain Optimization Technologies가 Oracle 데이터 웨어하우스를 Amazon Redshift로 마이그레이션하고 AWS 기술을 사용하여 차세대 빅 데이터 분석 플랫폼을 구축하도록 도왔습니다.

시드한스 무랄리다르 AWS의 수석 기술 계정 관리자입니다. 그는 AWS에서 워크로드를 실행하는 대기업 고객과 함께 일합니다. 그는 고객과 협력하고 클라우드 여정에서 대규모로 비용, 안정성, 성능 및 운영 우수성을 위해 워크로드를 설계하도록 돕는 데 열정적입니다. 데이터 분석에도 관심이 많습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
플라토 블록체인. Web3 메타버스 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/big-data/how-to-get-best-price-performance-from-your-amazon-redshift-data-sharing-deployment/

타임 스탬프 : 2022 년 12 월 20 일

타임 스탬프 : 25년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon MWAA에서 YAML 및 DAG Factory를 사용한 동적 DAG 생성 | 아마존 웹 서비스

Amazon MSK 및 Amazon Redshift를 사용하여 분석을 위한 데이터 스트리밍 수집 단순화 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

일반 소비자 사이징 지침

생산자 클러스터 크기 조정

초기 소비자 클러스터 크기 및 설정

Amazon Redshift 데이터 공유 설정

초기 소비자 클러스터에서 소비자 전용 워크로드 테스트

다양한 소비자 클러스터 구성에서 소비자 전용 워크로드 테스트

다른 생산자 클러스터 구성에서 생산자 전용 워크로드 테스트

시간 경과에 따라 전체 워크로드 실행 후 재평가

자동화된 사이징 솔루션

솔루션 연습

프로덕션 클러스터 크기 조정

격리할 워크로드 식별

단순 재생 설정

기준 워크로드

초기 생산자 및 소비자 테스트 클러스터 설정

초기 생산자 및 소비자에 대한 재생 워크로드

다양한 구성에서 소비자 워크로드 재생

다양한 구성에서 재생 생산자 워크로드

시간 경과에 따라 전체 워크로드 실행 후 재평가

정리

Amazon Redshift 및 데이터 공유 모범 사례 적용

요약

저자에 관하여

더보기 AWS 빅 데이터

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정