Configure Amazon EMR Studio And Amazon EKS To Run Notebooks With Amazon EMR On EKS

Ripubblicato da Platone

Seguaci: 0

Amazon EMR su Amazon EKS fornisce un'opzione di distribuzione per Amazon EMR che consente di eseguire carichi di lavoro di analisi su Servizio Amazon Elastic Kubernetes (Amazon EKS). Si tratta di un'opzione interessante perché consente di eseguire le applicazioni su un pool comune di risorse senza dover eseguire il provisioning dell'infrastruttura. Inoltre, puoi usare Amazon EMR Studio per creare codice di analisi in esecuzione su cluster Amazon EKS. EMR Studio è un ambiente di sviluppo integrato (IDE) basato sul Web che utilizza notebook Jupyter completamente gestiti che possono essere collegati a qualsiasi cluster EMR, incluso EMR su EKS. Utilizza Accesso singolo AWS (SSO) o un provider di identità compatibile (IdP) per accedere direttamente a EMR Studio tramite un URL sicuro utilizzando le credenziali aziendali.

La distribuzione di EMR Studio per collegarsi a EMR su EKS richiede l'integrazione di diversi servizi AWS:

Inoltre, è necessario installare il seguente EMR sui componenti EKS:

Questo post ti aiuta a creare tutti i componenti necessari e a unirli insieme eseguendo un singolo script. Descriviamo anche l'architettura di questa configurazione e il modo in cui i componenti lavorano insieme.

Panoramica sull'architettura

Con EMR su EKS, puoi eseguire applicazioni Spark insieme ad altri tipi di applicazioni sullo stesso cluster Amazon EKS, migliorando l'allocazione delle risorse e semplificando la gestione dell'infrastruttura. Per ulteriori informazioni sul funzionamento di Amazon EMR all'interno di un cluster Amazon EKS, consulta Novità: Amazon EMR su Amazon Elastic Kubernetes Service (EKS). EMR Studio fornisce un IDE basato sul Web che semplifica lo sviluppo, la visualizzazione e il debug di applicazioni eseguite in EMR. Per ulteriori informazioni, vedere Amazon EMR Studio (anteprima): una nuova esperienza IDE per notebook con Amazon EMR.

I kernel Spark sono pod pianificati in uno spazio dei nomi in un cluster Amazon EKS. EMR Studio utilizza Jupyter Enterprise Gateway (JEG) per avviare i kernel Spark su Amazon EKS. Viene eseguito il provisioning di un endpoint gestito di tipo JEG come distribuzione Kubernetes nello spazio dei nomi associato del cluster virtuale EMR ed esposto come servizio Kubernetes. Ogni cluster virtuale EMR esegue il mapping a uno spazio dei nomi Kubernetes registrato con il cluster Amazon EKS; i cluster virtuali non gestiscono il calcolo fisico o l'archiviazione, ma puntano allo spazio dei nomi Kubernetes in cui è pianificato il carico di lavoro. Ogni cluster virtuale può avere diversi endpoint gestiti, ognuno con i propri kernel configurati per diversi casi d'uso ed esigenze. Gli endpoint gestiti JEG forniscono endpoint HTTPS, serviti da un Application Load Balancer (ALB), che sono raggiungibili solo da EMR Studio e notebook self-hosted creati all'interno di una sottorete privata del VPC Amazon EKS.

Il diagramma seguente illustra l'architettura della soluzione.

L'endpoint gestito viene creato nello spazio dei nomi Amazon EKS del cluster virtuale (in questo caso, sparkns) e gli endpoint HTTPS sono serviti da sottoreti private. I pod del kernel vengono eseguiti con il ruolo IAM di esecuzione del lavoro definito nell'endpoint gestito. Durante la creazione dell'endpoint gestito, EMR su EKS utilizza AWS Load Balancer Controller in kube-system spazio dei nomi per creare un ALB con un gruppo di destinazione che si connette all'endpoint gestito da JEG nello spazio dei nomi Kubernetes del cluster virtuale.

Puoi configurare il kernel di ciascun endpoint gestito in modo diverso. Ad esempio, per consentire l'utilizzo di un kernel Spark Colla AWS come catalogo, puoi applicare il seguente file JSON di configurazione in:configuration-overrides flag durante la creazione di un endpoint gestito:

aws emr-containers create-managed-endpoint --type JUPYTER_ENTERPRISE_GATEWAY --virtual-cluster-id ${virtclusterid} --name ${virtendpointname} --execution-role-arn ${role_arn} --release-label ${emr_release_label} --certificate-arn ${certarn} --region ${region} --configuration-overrides '{ "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory", "spark.sql.catalogImplementation": "hive" } } ] }'

L'endpoint gestito è una distribuzione Kubernetes gestita da un servizio all'interno dello spazio dei nomi configurato (in questo caso, sparkns). Quando tracciamo le informazioni sull'endpoint, possiamo vedere come la distribuzione di Jupyter Enterprise Gateway si connette con l'ALB e il gruppo target:

# Get the endpoint ID
aws emr-containers list-managed-endpoints --region us-east-1 --virtual-cluster-id idzdhw2qltdr0dxkgx2oh4bp1
{ "endpoints": [ { "id": "5vbuwntrbzil1", "name": "virtual-emr-endpoint-demo", ... "serverUrl": "https://internal-k8s-default-ingress5-4f482e2d41-2097665209.us-east-1.elb.amazonaws.com:18888", # List the deployment
kubectl get deployments -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME READY UP-TO-DATE AVAILABLE AGE
jeg-5vbuwntrbzil1 1/1 1 1 4h54m # List the service
kubectl get svc -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service-5vbuwntrbzil1 NodePort 10.100.172.157 <none> 18888:30091/TCP 4h58m # List the TargetGroups to get the TargetGroup ARN kubectl get targetgroupbinding -n sparkns -o json | jq .items | jq .[].spec.targetGroupARN "arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8" # Get the TargetGroup Port number aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].Port 30091 # Get Load Balancer ARN aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].LoadBalancerArns | jq .[] "arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273" # Get Listener Port number aws elbv2 describe-listeners --load-balancer-arn arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273 | jq .Listeners | jq .[].Port 18888

Per vedere come si collega, prendi in considerazione due sessioni di EMR Studio. L'ALB espone la porta 18888 alle sessioni di EMR Studio. Il servizio JEG associa la porta esterna 18888 sull'ALB alla dinamica NodePort sul servizio JEG (in questo caso, 30091). Il servizio JEG inoltra il traffico al file TargetPort 9547, che instrada il traffico al pod del driver Spark appropriato. Ogni sessione del notebook ha il proprio kernel, che ha i propri rispettivi driver Spark ed executor pod, come illustrato nel diagramma seguente.

Collega EMR Studio a un cluster virtuale e a un endpoint gestito

Ogni volta che un utente collega un cluster virtuale e un endpoint gestito al proprio spazio di lavoro di Studio e avvia una sessione Spark, vengono pianificati i driver Spark e gli esecutori Spark. Lo puoi vedere quando corri kubectl per controllare quali pod sono stati lanciati:

$ kubectl get all -l app=enterprise-gateway
NAME READY STATUS RESTARTS AGE
pod/kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m38s $ kubectl get pods -n sparkns
NAME READY STATUS RESTARTS AGE
jeg-5vbuwntrbzil1-5fc8469d5f-pfdv9 1/1 Running 0 3d7h
kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m46s

Ogni sessione del kernel Spark del notebook distribuisce un pod del driver e dei pod dell'esecutore che continuano a essere eseguiti fino alla chiusura della sessione del kernel.

Il codice nelle celle del notebook viene eseguito nei pod executor distribuiti nel cluster Amazon EKS.

Configura EMR su EKS ed EMR Studio

Sono necessari diversi passaggi e parti per configurare sia EMR su EKS che EMR Studio. L'abilitazione di AWS SSO è un prerequisito. Puoi utilizzare i due script di avvio forniti in questa sezione o distribuirlo manualmente utilizzando i passaggi forniti più avanti in questo post.

Forniamo due script di lancio in questo post. Uno è uno script bash che utilizza AWS CloudFormazione, eksctl e Interfaccia della riga di comando di AWS (AWS CLI) per fornire una distribuzione end-to-end di una soluzione completa. L'altro usa il Kit di sviluppo cloud AWS (AWS CDK) per farlo.

Il diagramma seguente mostra l'architettura e i componenti che distribuiamo.

Prerequisiti

Assicurati di completare i seguenti prerequisiti:

Per informazioni sugli IdP supportati, vedere Abilita AWS Single Sign-On per Amazon EMR Studio.

Bash script

La sceneggiatura è disponibile su GitHub.

Prerequisiti

Lo script richiede di utilizzare AWS Cloud9. Seguire le istruzioni nel Workshop Amazon EKS. Assicurati di seguire attentamente queste istruzioni:

Dopo aver distribuito il desktop AWS Cloud9, procedi con i passaggi successivi.

PREPARAZIONE

Utilizza il codice seguente per clonare il repository GitHub e preparare i prerequisiti AWS Cloud9:

# Download script from the repository
$ git clone https://github.com/aws-samples/amazon-emr-on-eks-emr-studio.git # Prepare the Cloud9 Desktop pre-requisites
$ cd amazon-emr-on-eks-emr-studio
$ bash ./prepare_cloud9.sh

Distribuisci lo stack

Prima di eseguire lo script, fornire le seguenti informazioni:

L'ID account AWS e la regione, se il tuo desktop AWS Cloud9 non si trova nello stesso ID account o regione in cui desideri distribuire EMR su EKS
Il nome del Servizio di archiviazione semplice Amazon (Amazon S3) bucket da creare
L'utente AWS SSO da associare alla sessione EMR Studio

Dopo che lo script ha distribuito lo stack, viene visualizzato l'URL dell'EMR Studio distribuito:

# Launch the script and follow the instructions to provide user parameters
$ bash ./deploy_eks_cluster_bash.sh ...
Go to https://***. emrstudio-prod.us-east-1.amazonaws.com and login using < SSO user > ...

Script CDK AWS

Gli script AWS CDK sono disponibili su GitHub. Devi controllare il main ramo. Gli stack distribuiscono un cluster Amazon EKS e un EMR sul cluster virtuale EKS in un nuovo VPC con sottoreti private e, facoltativamente, un Flusso d'aria Apache gestito da Amazon (Amazon MWAA) e EMR Studio.

Prerequisiti

È necessario AWS CDK versione 1.90.1 o successiva. Per ulteriori informazioni, vedere Nozioni di base su AWS CDK.

Utilizziamo un elenco di prefissi per limitare l'accesso ad alcune risorse agli intervalli IP di rete che approvi. Creare un elenco di prefissi se non ne hai già uno.

Se prevedi di utilizzare EMR Studio, hai bisogno di AWS SSO configurato nel tuo account.

PREPARAZIONE

Dopo aver clonato il repository e verificato il file main branch, creare e attivare un nuovo ambiente virtuale Python:

# Clone the repository
$ git clone https://github.com/aws-samples/aws-cdk-for-emr-on-eks.git
$ cd aws-cdk-for-emr-on-eks/
$ git checkout main # $ python3 -m venv .venv
$ source .venv/bin/activate

Ora installa le dipendenze di Python:

$ pip install -r requirements.txt

Infine, esegui il bootstrap del CDK AWS:

$ cdk bootstrap aws://<account>/<region> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Distribuisci gli stack

Sintetizza gli stack AWS CDK con il seguente codice:

$ cdk synth --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Questo comando genera quattro stack:

emr-eks-cdk – La pila principale
mwaa-cdk – Aggiunge Amazon MWAA
studio-cdk – Aggiunge i prerequisiti di EMR Studio
studio-cdk-live – Aggiunge EMR Studio

Il diagramma seguente illustra le risorse distribuite dagli stack AWS CDK.

Inizia distribuendo il primo stack:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> emr-eks-cdk

Se desideri utilizzare Apache Airflow come orchestratore, distribuisci quello stack:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> mwaa-cdk

Distribuisci il primo stack EMR Studio:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-cdk

Attendere che l'endpoint gestito diventi attivo. Puoi controllare lo stato eseguendo il seguente codice:

$ aws emr-containers list-managed-endpoints --virtual-cluster-id <cluster ID> | jq '.endpoints[].state'

L'ID del cluster virtuale è disponibile nell'output di AWS CDK dallo stack emr-eks-cdk.

Quando l'endpoint è attivo, distribuisci il secondo stack EMR Studio:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-live-cdk

Distribuzione manuale

Se preferisci distribuire manualmente EMR su EKS ed EMR Studio, utilizza i passaggi in questa sezione.

Configura un VPC

Se utilizzi Amazon EKS v. 1.18, configura un VPC che disponga anche di sottoreti private e opportunamente contrassegnate per i bilanciatori del carico esterni. Per l'etichettatura, vedere: Bilanciamento del carico delle applicazioni su Amazon EKS ed Crea un ruolo del servizio EMR Studio.

Crea un cluster Amazon EKS

Avvia un cluster Amazon EKS con almeno un gruppo di nodi gestiti. Per le istruzioni, vedere Impostare ed Nozioni di base su Amazon EKS.

Crea policy IAM, ruoli, IdP e certificati SSL/TLS pertinenti

Per creare policy, ruoli, IdP e certificato SSL/TLS IAM, completa i seguenti passaggi:

Abilita l'accesso al cluster per EMR su EKS.
Crea un IdP in IAM in base all'URL del provider EKS OIDC.
Crea un certificato SSL/TLS e inseriscilo Gestore certificati AWS.
Crea le policy e i ruoli IAM pertinenti:
1. Ruolo di esecuzione del lavoro
2. Aggiorna la politica di attendibilità per il ruolo di esecuzione del lavoro
3. Distribuisci e crea la policy IAM per il controller AWS Load Balancer
4. Ruolo di servizio EMR Studio
5. Ruolo utente EMR Studio
6. Politiche utente di EMR Studio associati a utenti e gruppi AWS SSO
Registra il cluster Amazon EKS con Amazon EMR per creare il cluster EMR virtuale
Crea l'appropriato gruppi di sicurezza da allegare ad ogni EMR Studio creato:
1. Gruppo di sicurezza dell'area di lavoro
2. Gruppo di sicurezza del motore
Contrassegna i gruppi di sicurezza con i tag appropriati. Per le istruzioni, vedere Crea un ruolo del servizio EMR Studio.

Installazioni richieste in Amazon EKS

Distribuire il Controller di bilanciamento del carico AWS nel cluster Amazon EKS se non lo hai già fatto.

Crea EMR su pezzi pertinenti EKS e mappa l'utente su EMR Studio

Completa i seguenti passi:

Crea almeno un cluster virtuale EMR associato al cluster Amazon EKS. Per istruzioni, vedere il passaggio 1 di Configura Amazon EMR su EKS per EMR Studio.
Crea almeno un endpoint gestito. Per istruzioni, vedere il passaggio 2 di Configura Amazon EMR su EKS per EMR Studio.
Creare almeno un EMR Studio; associare EMR Studio alle sottoreti private configurate con il cluster Amazon EKS. Per le istruzioni, vedere Crea uno studio EMR.
Quando l'EMR Studio è disponibile, mappare un utente o un gruppo AWS SSO a EMR Studio e applicare una policy IAM appropriata a tale utente.

Usa EMR Studio

Per iniziare a utilizzare EMR Studio, completare i seguenti passaggi:

Trova l'URL per EMR Studio dagli studi in una regione:

$ aws emr list-studios --region us-east-1
{ "Studios": [ { "StudioId": "es-XXXXXXXXXXXXXXXXXXXXXX", "Name": "emr_studio_1", "VpcId": "vpc-XXXXXXXXXXXXXXXXXXXX", "Url": "https://es-XXXXXXXXXXXXXXXXXXXXXX.emrstudio-prod.us-east-1.amazonaws.com", "CreationTime": "2021-02-10T14:04:13.672000+00:00" } ]
}

Con l'URL elencato, accedi utilizzando il nome utente AWS SSO utilizzato in precedenza.

Dopo l'autenticazione, l'utente viene indirizzato al dashboard di EMR Studio.

Scegli Crea spazio di lavoro.
Nel Nome dell'area di lavoro, inserisci un nome.
Nel subnet, scegliere la sottorete che corrisponde a una delle sottoreti associate al gruppo di nodi gestiti.
Nel Posizione S3, inserisci un bucket S3 in cui archiviare i contenuti del notebook.

Dopo aver creato l'area di lavoro, scegline una che si trovi nel file Ready stato.

Nella barra laterale, scegli l'icona del cluster EMR.
Sotto Tipo di grappolo¸ scegli Cluster EMR su EKS.
Scegli il cluster virtuale disponibile e l'endpoint gestito disponibile.
Scegli allegare.

Dopo averlo collegato, EMR Studio visualizza i kernel disponibili nel file Taccuino ed consolle .

Scegli PySpark (Kubernetes) per avviare un kernel del notebook e avviare una sessione Spark.

Poiché la configurazione dell'endpoint qui utilizza AWS Glue per il suo metastore, puoi elencare i database e le tabelle connesse al catalogo dati di AWS Glue. È possibile utilizzare il seguente script di esempio per testare l'installazione. Modifica lo script come necessario per il database e la tabella appropriati che hai nel tuo Data Catalog:

words='Welcome to Amazon EMR Studio'.split(' ')
wordRDD = sc.parallelize(words)
wc = wordRDD.map(lambda word: (word, 1)).reduceByKey(lambda a,b: a+b)
print(wc.collect()) # Connect to Glue Catalog
spark.sql("""show databases like '< Database Name >'""").show(truncate=False)
spark.sql("""show tables in < Database Name >""").show(truncate=False)
# Run a simple select
spark.sql("""select * from < Database Name >.< Table Name > limit 10""").show(truncate=False)

ripulire

Per evitare di incorrere in addebiti futuri, elimina le risorse avviate qui eseguendo remove_setup.sh:

# Launch the script
$ bash ./remove_setup.sh</p>

Conclusione

EMR su EKS consente di eseguire applicazioni su un pool comune di risorse all'interno di un cluster Amazon EKS senza dover eseguire il provisioning dell'infrastruttura. EMR Studio è un notebook Jupyter completamente gestito e uno strumento che esegue il provisioning di kernel eseguiti su cluster EMR, inclusi cluster virtuali su Amazon EKS. In questo post, abbiamo descritto l'architettura di come EMR Studio si connette con EMR su EKS e fornito script per distribuire automaticamente tutti i componenti per connettere i due servizi.

Se hai domande o suggerimenti, lascia un commento.

Informazioni sugli autori

Randy De Fauw è Principal Solutions Architect presso Amazon Web Services. Lavora con i clienti AWS per fornire indicazioni e assistenza tecnica sui progetti di database, aiutandoli a migliorare il valore delle loro soluzioni quando utilizzano AWS.

Matteo Tan è Senior Analytics Solutions Architect presso Amazon Web Services e fornisce una guida ai clienti che sviluppano soluzioni con i servizi AWS Analytics sui loro carichi di lavoro di analisi.

Fonte: https://aws.amazon.com/blogs/big-data/configure-amazon-emr-studio-and-amazon-eks-to-run-notebooks-with-amazon-emr-on-eks/

Timestamp: 24 settembre 2021

Timestamp: 31 agosto 2021

In arrivo a gennaio 2022: un'esperienza di accesso Amazon QuickSight aggiornata

Cluster di origine:

AWS

Nodo di origine: 1876560

Timestamp: Settembre 28, 2021

Automatizza la gestione di utenti e gruppi di Amazon QuickSight utilizzando i dati LDAP per la sicurezza a livello di riga

Cluster di origine:

AWS

Nodo di origine: 1052621

Timestamp: 19 agosto 2021

Stabilisci una connettività privata tra Amazon QuickSight e Snowflake utilizzando AWS PrivateLink

Cluster di origine:

AWS

Nodo di origine: 1858655

Timestamp: Luglio 22, 2021

Configura Amazon EMR Studio e Amazon EKS per eseguire notebook con Amazon EMR su EKS

Ripubblicato da Platone

Panoramica sull'architettura

Collega EMR Studio a un cluster virtuale e a un endpoint gestito

Configura EMR su EKS ed EMR Studio

Prerequisiti

Bash script

Prerequisiti

PREPARAZIONE

Distribuisci lo stack

Script CDK AWS

Prerequisiti

PREPARAZIONE

Distribuisci gli stack

Distribuzione manuale

Configura un VPC

Crea un cluster Amazon EKS

Crea policy IAM, ruoli, IdP e certificati SSL/TLS pertinenti

Installazioni richieste in Amazon EKS

Crea EMR su pezzi pertinenti EKS e mappa l'utente su EMR Studio

Usa EMR Studio

ripulire

Conclusione

Informazioni sugli autori

Di più da AWS

Nuove funzionalità di Apache Hudi 0.7.0 e 0.8.0 disponibili su Amazon EMR

Interroga un database Teradata utilizzando Amazon Athena Federated Query e unisciti ai dati nel tuo data lake Amazon S3

Semplifica l'acquisizione dei dati in entrata con set di dati parametrizzati dinamici in AWS Glue DataBrew

Inizia con l'API dati Amazon Redshift

In arrivo a gennaio 2022: un'esperienza di accesso Amazon QuickSight aggiornata

Stabilisci una connettività privata tra Amazon QuickSight e Snowflake utilizzando AWS PrivateLink

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account