Amazon EKS의 Amazon EMR 에 대한 배포 옵션을 제공합니다. 아마존 EMR 분석 워크로드를 실행할 수 있는 Amazon Elastic Kubernetes 서비스 (아마존 EKS). 인프라를 프로비저닝할 필요 없이 공통 리소스 풀에서 애플리케이션을 실행할 수 있기 때문에 매력적인 옵션입니다. 또한 다음을 사용할 수 있습니다. Amazon EMR 스튜디오 Amazon EKS 클러스터에서 실행되는 분석 코드를 빌드합니다. EMR Studio는 EKS의 EMR을 포함하여 모든 EMR 클러스터에 연결할 수 있는 완전 관리형 Jupyter 노트북을 사용하는 웹 기반 IDE(통합 개발 환경)입니다. 그것은 사용 AWS 싱글 사인온 (SSO) 또는 호환 가능한 ID 공급자(IdP)를 통해 기업 자격 증명을 사용하여 보안 URL을 통해 EMR Studio에 직접 로그인할 수 있습니다.
EKS의 EMR에 연결하기 위해 EMR Studio를 배포하려면 여러 AWS 서비스를 통합해야 합니다.
또한 EKS 구성 요소에 다음 EMR을 설치해야 합니다.
이 게시물은 필요한 모든 구성 요소를 빌드하고 단일 스크립트를 실행하여 함께 연결하는 데 도움이 됩니다. 또한 이 설정의 아키텍처와 구성 요소가 함께 작동하는 방식에 대해서도 설명합니다.
아키텍처 개요
EKS의 EMR을 사용하면 동일한 Amazon EKS 클러스터에서 다른 유형의 애플리케이션과 함께 Spark 애플리케이션을 실행할 수 있으므로 리소스 할당이 향상되고 인프라 관리가 간소화됩니다. Amazon EMR이 Amazon EKS 클러스터 내에서 작동하는 방식에 대한 자세한 내용은 단원을 참조하십시오. 신규 – Amazon Elastic Kubernetes Service(EKS)의 Amazon EMR. EMR Studio는 EMR에서 실행되는 애플리케이션을 쉽게 개발, 시각화 및 디버그할 수 있는 웹 기반 IDE를 제공합니다. 자세한 내용은 Amazon EMR Studio(미리 보기): Amazon EMR을 통한 새로운 노트북 우선 IDE 환경.
Spark 커널은 Amazon EKS 클러스터의 네임스페이스에 있는 예약된 포드입니다. EMR Studio는 Jupyter Enterprise Gateway(JEG)를 사용하여 Amazon EKS에서 Spark 커널을 시작합니다. JEG 유형의 관리형 엔드포인트는 EMR 가상 클러스터의 연결된 네임스페이스에서 Kubernetes 배포로 프로비저닝되고 Kubernetes 서비스로 노출됩니다. 각 EMR 가상 클러스터는 Amazon EKS 클러스터에 등록된 Kubernetes 네임스페이스에 매핑됩니다. 가상 클러스터는 물리적 컴퓨팅 또는 스토리지를 관리하지 않지만 워크로드가 예약된 Kubernetes 네임스페이스를 가리킵니다. 각 가상 클러스터에는 다양한 사용 사례 및 요구 사항에 맞게 구성된 자체 커널이 있는 여러 관리 엔드포인트가 있을 수 있습니다. JEG 관리형 엔드포인트는 Amazon EKS VPC의 프라이빗 서브넷 내에서 생성된 자체 호스팅 노트북 및 EMR Studio에서만 연결할 수 있는 ALB(Application Load Balancer)에서 서비스하는 HTTPS 엔드포인트를 제공합니다.
관리형 엔드포인트는 가상 클러스터의 Amazon EKS 네임스페이스에 생성됩니다(이 경우, sparkns
) 및 HTTPS 끝점은 프라이빗 서브넷에서 제공됩니다. 커널 포드는 관리형 엔드포인트에 정의된 작업 실행 IAM 역할로 실행됩니다. 관리형 엔드포인트를 생성하는 동안 EKS의 EMR은 kube-system
가상 클러스터의 Kubernetes 네임스페이스에서 JEG 관리 엔드포인트와 연결하는 대상 그룹이 있는 ALB를 생성하기 위한 네임스페이스입니다.
각 관리 끝점의 커널을 다르게 구성할 수 있습니다. 예를 들어 Spark 커널이 사용하도록 허용하려면 AWS 접착제 카탈로그로 다음 구성 JSON 파일을 적용할 수 있습니다.configuration-overrides
관리형 엔드포인트를 생성할 때 플래그:
관리형 엔드포인트는 구성된 네임스페이스(이 경우, sparkns
). 엔드포인트 정보를 추적하면 Jupyter Enterprise Gateway 배포가 ALB 및 대상 그룹과 연결되는 방식을 확인할 수 있습니다.
이것이 어떻게 연결되는지 보려면 두 개의 EMR Studio 세션을 고려하십시오. ALB는 포트 18888을 EMR Studio 세션에 노출합니다. JEG 서비스는 ALB의 외부 포트 18888을 동적 NodePort
JEG 서비스(이 경우 30091). JEG 서비스는 트래픽을 TargetPort
9547, 트래픽을 적절한 Spark 드라이버 포드로 라우팅합니다. 각 노트북 세션에는 다음 다이어그램과 같이 자체적인 Spark 드라이버 및 실행기 포드가 있는 자체 커널이 있습니다.
가상 클러스터 및 관리형 엔드포인트에 EMR Studio 연결
사용자가 가상 클러스터와 관리형 엔드포인트를 Studio Workspace에 연결하고 Spark 세션을 시작할 때마다 Spark 드라이버 및 Spark 실행기가 예약됩니다. 실행하면 알 수 있습니다. kubectl
어떤 포드가 실행되었는지 확인하려면:
각 노트북 Spark 커널 세션은 커널 세션이 종료될 때까지 계속 실행되는 드라이버 포드 및 실행기 포드를 배포합니다.
노트북 셀의 코드는 Amazon EKS 클러스터에 배포된 실행기 포드에서 실행됩니다.
EKS 및 EMR Studio에서 EMR 설정
EKS 및 EMR Studio에서 EMR을 모두 설정하려면 여러 단계와 부분이 필요합니다. AWS SSO를 활성화하는 것은 전제 조건입니다. 이 섹션에서 제공된 두 개의 시작 스크립트를 사용하거나 이 게시물의 뒷부분에서 제공되는 단계를 사용하여 수동으로 배포할 수 있습니다.
이 게시물에서는 두 개의 실행 스크립트를 제공합니다. 하나는 다음을 사용하는 bash 스크립트입니다. AWS 클라우드 포메이션, eksctl 및 AWS 명령 줄 인터페이스 (AWS CLI) 명령을 사용하여 완전한 솔루션의 종단 간 배포를 제공합니다. 다른 사용 AWS 클라우드 개발 키트 (AWS CDK)를 사용합니다.
다음 다이어그램은 배포하는 아키텍처와 구성 요소를 보여줍니다.
사전 조건
다음 전제 조건을 완료해야 합니다.
지원되는 IdP에 대한 자세한 내용은 다음을 참조하십시오. Amazon EMR Studio용 AWS Single Sign-On 활성화.
배쉬 스크립트
스크립트는 GitHub의.
사전 조건
스크립트는 다음을 사용해야 합니다. AWS 클라우드9. 의 지침을 따르십시오. Amazon EKS 워크샵. 다음 지침을 주의 깊게 따르십시오.
AWS Cloud9 데스크톱을 배포한 후 다음 단계를 진행합니다.
예비
다음 코드를 사용하여 GitHub 리포지토리를 복제하고 AWS Cloud9 사전 요구 사항을 준비합니다.
스택 배포
스크립트를 실행하기 전에 다음 정보를 제공하십시오.
- AWS 계정 ID 및 리전(AWS Cloud9 데스크톱이 EKS에 EMR을 배포하려는 동일한 계정 ID 또는 리전에 있지 않은 경우)
- 의 이름 아마존 단순 스토리지 서비스 (Amazon S3) 생성할 버킷
- EMR Studio 세션과 연결할 AWS SSO 사용자
스크립트가 스택을 배포한 후 배포된 EMR Studio의 URL이 표시됩니다.
AWS CDK 스크립트
AWS CDK 스크립트는 다음에서 사용할 수 있습니다. GitHub의. 당신은 체크 아웃해야합니다 main
나뭇 가지. 스택은 프라이빗 서브넷이 있는 새 VPC의 EKS 가상 클러스터에 Amazon EKS 클러스터와 EMR을 배포하고 선택적으로 Amazon 관리형 Apache Airflow (Amazon MWAA) 환경 및 EMR Studio.
사전 조건
AWS CDK 버전 1.90.1 이상이 필요합니다. 자세한 내용은 AWS CDK 시작하기.
접두사 목록을 사용하여 일부 리소스에 대한 액세스를 귀하가 승인한 네트워크 IP 범위로 제한합니다. 만들기 접두사 목록 아직없는 경우
EMR Studio를 사용하려면 AWS SSO가 필요합니다. 귀하의 계정에 구성.
예비
저장소를 복제하고 체크아웃한 후 main
분기, 새 Python 가상 환경 생성 및 활성화:
이제 Python 종속성을 설치합니다.
마지막으로 AWS CDK를 부트스트랩합니다.
스택 배포
다음 코드를 사용하여 AWS CDK 스택을 합성합니다.
이 명령은 XNUMX개의 스택을 생성합니다.
- emr-eks-cdk – 메인 스택
- mwaa-cdk – Amazon MWAA 추가
- 스튜디오-cdk – EMR Studio 전제 조건 추가
- 스튜디오-cdk-라이브 – EMR 스튜디오 추가
다음 다이어그램은 AWS CDK 스택에서 배포한 리소스를 보여줍니다.
첫 번째 스택을 배포하여 시작합니다.
Apache Airflow를 오케스트레이터로 사용하려면 해당 스택을 배포합니다.
첫 번째 EMR Studio 스택을 배포합니다.
관리 엔드포인트가 활성화될 때까지 기다리십시오. 다음 코드를 실행하여 상태를 확인할 수 있습니다.
가상 클러스터 ID는 emr-eks-cdk 스택의 AWS CDK 출력에서 사용할 수 있습니다.
엔드포인트가 활성화되면 두 번째 EMR Studio 스택을 배포합니다.
수동 배포
EKS 및 EMR Studio에 EMR을 수동으로 배포하려는 경우 이 섹션의 단계를 사용하십시오.
VPC 설정
Amazon EKS v. 1.18을 사용하는 경우 프라이빗 서브넷도 있고 외부 로드 밸런서에 대해 적절하게 태그가 지정된 VPC를 설정합니다. 태그 지정은 다음을 참조하십시오. Amazon EKS의 애플리케이션 로드 밸런싱 과 EMR Studio 서비스 역할 생성.
Amazon EKS 클러스터 생성
관리형 노드 그룹이 하나 이상 있는 Amazon EKS 클러스터를 시작합니다. 지침은 다음을 참조하십시오. 설정 과 Amazon EKS 시작하기.
관련 IAM 정책, 역할, IdP 및 SSL/TLS 인증서 생성
IAM 정책, 역할, IdP 및 SSL/TLS 인증서를 생성하려면 다음 단계를 완료하십시오.
- EKS에서 EMR에 대한 클러스터 액세스 활성화.
- EKS OIDC 공급자 URL을 기반으로 IAM에서 IdP 생성.
- SSL/TLS 인증서를 만들어 다음 위치에 배치합니다. AWS 인증서 관리자.
- 관련 IAM 정책 및 역할을 생성합니다.
- 작업 실행 역할
- 신뢰 정책 업데이트 작업 실행 역할
- AWS 로드 밸런서 컨트롤러에 대한 IAM 정책 배포 및 생성
- EMR Studio 서비스 역할
- EMR Studio 사용자 역할
- EMR Studio 사용자 정책 AWS SSO 사용자 및 그룹과 연결됨
- Amazon EMR에 Amazon EKS 클러스터 등록 가상 EMR 클러스터 생성
- 적절한 생성 보안 그룹 생성된 각 EMR Studio에 첨부:
- 작업 공간 보안 그룹
- 엔진 보안 그룹
- 적절한 태그로 보안 그룹에 태그를 지정합니다. 지침은 다음을 참조하십시오. EMR Studio 서비스 역할 생성.
Amazon EKS의 필수 설치
배포 AWS 로드 밸런서 컨트롤러 아직 수행하지 않은 경우 Amazon EKS 클러스터에서.
EKS 관련 조각에 EMR을 생성하고 사용자를 EMR Studio에 매핑
다음 단계를 완료하십시오.
- Amazon EKS 클러스터와 연결된 EMR 가상 클러스터를 하나 이상 생성합니다. 지침은 의 1단계를 참조하십시오. EMR Studio용 EKS에서 Amazon EMR 설정.
- 관리되는 끝점을 하나 이상 만듭니다. 지침은 의 2단계를 참조하십시오. EMR Studio용 EKS에서 Amazon EMR 설정.
- EMR Studio를 하나 이상 생성합니다. EMR Studio를 Amazon EKS 클러스터로 구성된 프라이빗 서브넷과 연결합니다. 지침은 다음을 참조하십시오. EMR 스튜디오 생성.
- EMR 스튜디오를 사용할 수 있는 경우 AWS SSO 사용자 또는 그룹을 EMR Studio에 매핑 해당 사용자에게 적절한 IAM 정책을 적용합니다.
EMR 스튜디오 사용
EMR Studio 사용을 시작하려면 다음 단계를 완료하십시오.
- 지역의 스튜디오별로 EMR Studio의 URL을 찾으십시오.
- 나열된 URL로 이전에 사용한 AWS SSO 사용자 이름을 사용하여 로그인합니다.
인증 후 사용자는 EMR Studio 대시보드로 라우팅됩니다.
- 왼쪽 메뉴에서 작업 공간 생성.
- 럭셔리 작업 공간 이름이름을 입력하십시오.
- 럭셔리 서브넷, 관리형 노드 그룹과 연결된 서브넷 중 하나에 해당하는 서브넷을 선택합니다.
- 럭셔리 S3 위치, 노트북 콘텐츠를 저장할 수 있는 S3 버킷을 입력합니다.
- 작업 공간을 생성한 후
Ready
상태.
- 사이드바에서 EMR 클러스터 아이콘을 선택합니다.
- $XNUMX Million 미만 클러스터 유형¸ 선택 EKS의 EMR 클러스터.
- 사용 가능한 가상 클러스터와 사용 가능한 관리형 엔드포인트를 선택합니다.
- 왼쪽 메뉴에서 연결.
연결되면 EMR Studio에서 사용 가능한 커널을 표시합니다. 수첩 과 콘솔에서 안내
- 왼쪽 메뉴에서 PySpark(쿠버네티스) 노트북 커널을 시작하고 Spark 세션을 시작합니다.
여기서 엔드포인트 구성은 메타스토어에 AWS Glue를 사용하므로 AWS Glue 데이터 카탈로그에 연결된 데이터베이스와 테이블을 나열할 수 있습니다. 다음 예제 스크립트를 사용하여 설정을 테스트할 수 있습니다. 데이터 카탈로그에 있는 적절한 데이터베이스 및 테이블에 대해 필요에 따라 스크립트를 수정합니다.
정리
향후 요금이 발생하지 않도록 하려면 remove_setup.sh를 실행하여 여기에서 시작된 리소스를 삭제하십시오.
결론
EKS의 EMR을 사용하면 인프라를 프로비저닝할 필요 없이 Amazon EKS 클러스터 내부의 공통 리소스 풀에서 애플리케이션을 실행할 수 있습니다. EMR Studio는 Amazon EKS의 가상 클러스터를 포함하여 EMR 클러스터에서 실행되는 커널을 프로비저닝하는 완전 관리형 Jupyter 노트북 및 도구입니다. 이 게시물에서는 EMR Studio가 EKS에서 EMR과 연결되는 방식에 대한 아키텍처를 설명하고 두 서비스를 연결하기 위해 모든 구성 요소를 자동으로 배포하는 스크립트를 제공했습니다.
질문이나 제안 사항이 있으면 댓글을 남겨주세요.
저자에 관하여
랜디 드포 Amazon Web Services의 수석 솔루션 아키텍트입니다. 그는 AWS 고객과 협력하여 데이터베이스 프로젝트에 대한 지침 및 기술 지원을 제공하여 AWS를 사용할 때 솔루션의 가치를 향상하도록 돕습니다.
매튜 탄 Amazon Web Services의 수석 분석 솔루션 설계자이며 분석 워크로드에서 AWS Analytics 서비스를 사용하여 솔루션을 개발하는 고객에게 지침을 제공합니다.
- '
- "
- 100
- 7
- 9
- ACCESS
- 계정
- 활동적인
- All
- 배당
- 아마존
- Amazon Web Services
- 분석
- 아파치
- 어플리케이션
- 어플리케이션
- 아키텍처
- 인증
- AWS
- 그네
- 빌드
- 가지 경우
- 증명서
- 요금
- Checkout
- 분류
- 클라우드
- 암호
- 공통의
- 계산
- 함유량
- 계속
- 제어 장치
- 만들기
- 신임장
- 고객
- 계기반
- 데이터
- 데이터베이스
- 데이터베이스
- 개발
- 개발
- 운전사
- 종점
- Enterprise
- 환경
- 실행
- 경험
- 공장
- 먼저,
- 따라
- 정면
- 미래
- 힘내
- GitHub의
- 그룹
- 하둡
- 여기에서 지금 확인해 보세요.
- 하이브
- 방법
- HTTPS
- IAM
- ICON
- 통합 인증
- 포함
- 정보
- 인프라
- IP
- IT
- 일
- 주피터 수첩
- Kubernetes
- 시작
- 시작
- 라인
- 명부
- 하중
- 구축
- 지도
- 지도
- 네트워크
- 노트북
- 선택권
- 기타
- 물리적
- 포드
- 정책
- 정책
- 풀
- 시사
- 교장
- 사설
- 프로젝트
- Python
- 요구조건 니즈
- 의지
- 자료
- 달리기
- 달리는
- 보안
- 서비스
- 세트
- 단순, 간단, 편리
- So
- 솔루션
- SQL
- 스타트
- 시작
- 주 정부
- Status
- 저장
- 저장
- 지원
- 목표
- 테크니컬
- test
- 시간
- 교통
- 믿어
- 사용자
- 가치
- 온라인
- 웹
- 웹 서비스
- 이내
- 말
- 작업
- 일