Configurer Amazon EMR Studio et Amazon EKS pour exécuter des blocs-notes avec Amazon EMR sur EKS

Republié par Platon

Suiveurs: 0

Amazon EMR sur Amazon EKS offre une option de déploiement pour Amazon DME qui vous permet d'exécuter des charges de travail d'analyse sur Service Amazon Elastic Kubernetes (Amazon EKS). Il s'agit d'une option intéressante car elle vous permet d'exécuter des applications sur un pool commun de ressources sans avoir à provisionner l'infrastructure. De plus, vous pouvez utiliser Amazon EMRStudio pour créer du code d'analyse exécuté sur des clusters Amazon EKS. EMR Studio est un environnement de développement intégré (IDE) basé sur le Web utilisant des notebooks Jupyter entièrement gérés qui peuvent être connectés à n'importe quel cluster EMR, y compris EMR sur EKS. Il utilise Authentification unique AWS (SSO) ou un fournisseur d'identité compatible (IdP) pour vous connecter directement à EMR Studio via une URL sécurisée à l'aide des informations d'identification de l'entreprise.

Le déploiement d'EMR Studio pour s'attacher à EMR sur EKS nécessite l'intégration de plusieurs services AWS :

De plus, vous devez installer l'EMR suivant sur les composants EKS :

Cet article vous aide à créer tous les composants nécessaires et à les assembler en exécutant un seul script. Nous décrivons également l'architecture de cette configuration et la manière dont les composants fonctionnent ensemble.

Aperçu de l'architecture

Avec EMR sur EKS, vous pouvez exécuter des applications Spark avec d'autres types d'applications sur le même cluster Amazon EKS, ce qui améliore l'allocation des ressources et simplifie la gestion de l'infrastructure. Pour plus d'informations sur le fonctionnement d'Amazon EMR au sein d'un cluster Amazon EKS, consultez Nouveau – Amazon EMR sur Amazon Elastic Kubernetes Service (EKS). EMR Studio fournit un IDE basé sur le Web qui facilite le développement, la visualisation et le débogage des applications exécutées dans EMR. Pour plus d'informations, voir Amazon EMR Studio (aperçu) : une nouvelle expérience IDE axée sur les ordinateurs portables avec Amazon EMR.

Les noyaux Spark sont des pods planifiés dans un espace de noms dans un cluster Amazon EKS. EMR Studio utilise Jupyter Enterprise Gateway (JEG) pour lancer les noyaux Spark sur Amazon EKS. Un point de terminaison géré de type JEG est provisionné en tant que déploiement Kubernetes dans l’espace de noms associé au cluster virtuel EMR et exposé en tant que service Kubernetes. Chaque cluster virtuel EMR est mappé à un espace de noms Kubernetes enregistré auprès du cluster Amazon EKS ; les clusters virtuels ne gèrent pas le calcul ou le stockage physique, mais pointent vers l'espace de noms Kubernetes où la charge de travail est planifiée. Chaque cluster virtuel peut avoir plusieurs points de terminaison gérés, chacun avec ses propres noyaux configurés pour différents cas d'utilisation et besoins. Les points de terminaison gérés par JEG fournissent des points de terminaison HTTPS, desservis par un Application Load Balancer (ALB), accessibles uniquement à partir d'EMR Studio et de blocs-notes auto-hébergés créés dans un sous-réseau privé du VPC Amazon EKS.

Le diagramme suivant illustre l'architecture de la solution.

Le point de terminaison géré est créé dans l'espace de noms Amazon EKS du cluster virtuel (dans ce cas, sparkns) et les points de terminaison HTTPS sont desservis à partir de sous-réseaux privés. Les pods du noyau s'exécutent avec le rôle IAM d'exécution de tâches défini dans le point de terminaison géré. Lors de la création d'un point de terminaison géré, EMR sur EKS utilise le contrôleur AWS Load Balancer dans le kube-system espace de noms pour créer un ALB avec un groupe cible qui se connecte au point de terminaison géré par JEG dans l’espace de noms Kubernetes du cluster virtuel.

Vous pouvez configurer différemment le noyau de chaque point de terminaison géré. Par exemple, pour permettre à un noyau Spark d'utiliser Colle AWS comme catalogue, vous pouvez appliquer le fichier JSON de configuration suivant dans le —configuration-overrides indicateur lors de la création d'un point de terminaison géré :

aws emr-containers create-managed-endpoint --type JUPYTER_ENTERPRISE_GATEWAY --virtual-cluster-id ${virtclusterid} --name ${virtendpointname} --execution-role-arn ${role_arn} --release-label ${emr_release_label} --certificate-arn ${certarn} --region ${region} --configuration-overrides '{ "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory", "spark.sql.catalogImplementation": "hive" } } ] }'

Le point de terminaison géré est un déploiement Kubernetes dirigé par un service dans l'espace de noms configuré (dans ce cas, sparkns). Lorsque nous suivons les informations du point de terminaison, nous pouvons voir comment le déploiement de Jupyter Enterprise Gateway se connecte à l'ALB et au groupe cible :

# Get the endpoint ID
aws emr-containers list-managed-endpoints --region us-east-1 --virtual-cluster-id idzdhw2qltdr0dxkgx2oh4bp1
{ "endpoints": [ { "id": "5vbuwntrbzil1", "name": "virtual-emr-endpoint-demo", ... "serverUrl": "https://internal-k8s-default-ingress5-4f482e2d41-2097665209.us-east-1.elb.amazonaws.com:18888", # List the deployment
kubectl get deployments -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME READY UP-TO-DATE AVAILABLE AGE
jeg-5vbuwntrbzil1 1/1 1 1 4h54m # List the service
kubectl get svc -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service-5vbuwntrbzil1 NodePort 10.100.172.157 <none> 18888:30091/TCP 4h58m # List the TargetGroups to get the TargetGroup ARN kubectl get targetgroupbinding -n sparkns -o json | jq .items | jq .[].spec.targetGroupARN "arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8" # Get the TargetGroup Port number aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].Port 30091 # Get Load Balancer ARN aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].LoadBalancerArns | jq .[] "arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273" # Get Listener Port number aws elbv2 describe-listeners --load-balancer-arn arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273 | jq .Listeners | jq .[].Port 18888

Pour voir comment cela se connecte, considérons deux sessions EMR Studio. L'ALB expose le port 18888 aux sessions EMR Studio. Le service JEG mappe le port externe 18888 sur l'ALB au port dynamique NodePort sur le service JEG (dans ce cas, 30091). Le service JEG transmet le trafic au TargetPort 9547, qui achemine le trafic vers le pod de pilote Spark approprié. Chaque session de bloc-notes possède son propre noyau, qui possède ses propres modules de pilote et d'exécuteur Spark respectifs, comme l'illustre le diagramme suivant.

Attachez EMR Studio à un cluster virtuel et à un point de terminaison géré

Chaque fois qu'un utilisateur attache un cluster virtuel et un point de terminaison géré à son espace de travail Studio et lance une session Spark, les pilotes Spark et les exécuteurs Spark sont planifiés. Tu peux le voir quand tu cours kubectl pour vérifier quels pods ont été lancés :

$ kubectl get all -l app=enterprise-gateway
NAME READY STATUS RESTARTS AGE
pod/kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m38s $ kubectl get pods -n sparkns
NAME READY STATUS RESTARTS AGE
jeg-5vbuwntrbzil1-5fc8469d5f-pfdv9 1/1 Running 0 3d7h
kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m46s

Chaque session du noyau Spark du notebook déploie un pod de pilotes et des pods d'exécution qui continuent de s'exécuter jusqu'à l'arrêt de la session du noyau.

Le code des cellules du bloc-notes s'exécute dans les pods d'exécution qui ont été déployés dans le cluster Amazon EKS.

Configurer EMR sur EKS et EMR Studio

Plusieurs étapes et éléments sont nécessaires pour configurer à la fois EMR sur EKS et EMR Studio. L'activation d'AWS SSO est une condition préalable. Vous pouvez utiliser les deux scripts de lancement fournis dans cette section ou le déployer manuellement en suivant les étapes fournies plus loin dans cet article.

Nous proposons deux scripts de lancement dans cet article. L'un est un script bash qui utilise AWS CloudFormation, eksctl, et Interface de ligne de commande AWS (AWS CLI) pour fournir un déploiement de bout en bout d'une solution complète. L'autre utilise le Kit de développement AWS Cloud (AWS CDK) pour ce faire.

Le diagramme suivant montre l'architecture et les composants que nous déployons.

Pré-requis

Assurez-vous de remplir les conditions préalables suivantes :

Pour plus d'informations sur les IdP pris en charge, voir Activer l'authentification unique AWS pour Amazon EMR Studio.

Script Bash

Le script est disponible sur GitHub.

Pré-requis

Le script vous oblige à utiliser AWSCloud9. Suivez les instructions dans le Atelier Amazon EKS. Assurez-vous de suivre attentivement ces instructions :

Après avoir déployé le bureau AWS Cloud9, passez aux étapes suivantes.

Préparation

Utilisez le code suivant pour cloner le dépôt GitHub et préparer les prérequis d'AWS Cloud9 :

# Download script from the repository
$ git clone https://github.com/aws-samples/amazon-emr-on-eks-emr-studio.git # Prepare the Cloud9 Desktop pre-requisites
$ cd amazon-emr-on-eks-emr-studio
$ bash ./prepare_cloud9.sh

Déployer la pile

Avant d'exécuter le script, fournissez les informations suivantes :

L'ID de compte AWS et la région, si votre bureau AWS Cloud9 ne se trouve pas dans le même ID de compte ou la même région dans laquelle vous souhaitez déployer EMR sur EKS.
Le nom du Service de stockage simple Amazon (Amazon S3) compartiment à créer
L'utilisateur AWS SSO à associer à la session EMR Studio

Une fois que le script a déployé la pile, l'URL du studio EMR déployé s'affiche :

# Launch the script and follow the instructions to provide user parameters
$ bash ./deploy_eks_cluster_bash.sh ...
Go to https://***. emrstudio-prod.us-east-1.amazonaws.com and login using < SSO user > ...

Script AWS CDK

Les scripts AWS CDK sont disponibles sur GitHub. Vous devez vérifier le main bifurquer. Les piles déploient un cluster Amazon EKS et un cluster virtuel EMR sur EKS dans un nouveau VPC avec des sous-réseaux privés, et éventuellement un Flux d'air Apache géré par Amazon (Amazon MWAA) et EMR Studio.

Pré-requis

Vous avez besoin de la version AWS CDK 1.90.1 ou supérieure. Pour plus d'informations, voir Premiers pas avec AWS CDK.

Nous utilisons une liste de préfixes pour restreindre l'accès à certaines ressources aux plages IP du réseau que vous approuvez. Créer un liste des préfixes si vous n'en avez pas déjà un.

Si vous envisagez d'utiliser EMR Studio, vous avez besoin d'AWS SSO configuré dans votre compte.

Préparation

Après avoir cloné le référentiel et extrait le main branchez, créez et activez un nouvel environnement virtuel Python :

# Clone the repository
$ git clone https://github.com/aws-samples/aws-cdk-for-emr-on-eks.git
$ cd aws-cdk-for-emr-on-eks/
$ git checkout main # $ python3 -m venv .venv
$ source .venv/bin/activate

Installez maintenant les dépendances Python :

$ pip install -r requirements.txt

Enfin, démarrez le AWS CDK :

$ cdk bootstrap aws://<account>/<region> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Déployer les piles

Synthétisez les piles AWS CDK avec le code suivant :

$ cdk synth --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Cette commande génère quatre piles :

emr-eks-cdk – La pile principale
mwaa-cdk – Ajoute Amazon MWAA
studio-cdk – Ajoute les prérequis d’EMR Studio
studio-cdk-live – Ajoute EMR Studio

Le diagramme suivant illustre les ressources déployées par les piles AWS CDK.

Commencez par déployer la première stack :

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> emr-eks-cdk

Si vous souhaitez utiliser Apache Airflow comme orchestrateur, déployez cette pile :

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> mwaa-cdk

Déployez la première pile EMR Studio :

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-cdk

Attendez que le point de terminaison géré devienne actif. Vous pouvez vérifier l'état en exécutant le code suivant :

$ aws emr-containers list-managed-endpoints --virtual-cluster-id <cluster ID> | jq '.endpoints[].state'

L'ID du cluster virtuel est disponible dans la sortie AWS CDK de la pile emr-eks-cdk.

Lorsque le point de terminaison est actif, déployez la deuxième pile EMR Studio :

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-live-cdk

Déploiement manuel

Si vous préférez déployer manuellement EMR sur EKS et EMR Studio, suivez les étapes de cette section.

Configurer un VPC

Si vous utilisez Amazon EKS v. 1.18, configurez un VPC doté également de sous-réseaux privés et correctement balisé pour les équilibreurs de charge externes. Pour le balisage, voir : Équilibrage de charge des applications sur Amazon EKS ainsi que Créer un rôle de service EMR Studio.

Créer un cluster Amazon EKS

Lancez un cluster Amazon EKS avec au moins un groupe de nœuds gérés. Pour les instructions, voir Mise en place ainsi que Premiers pas avec Amazon EKS.

Créez des stratégies IAM, des rôles, des IdP et des certificats SSL/TLS pertinents

Pour créer vos stratégies IAM, vos rôles, votre IdP et votre certificat SSL/TLS, procédez comme suit :

Activer l'accès au cluster pour EMR sur EKS.
Créer un IdP dans IAM basé sur l'URL du fournisseur EKS OIDC.
Créez un certificat SSL/TLS et placez-le dans Gestionnaire de certificats AWS.
Créez les stratégies et les rôles IAM pertinents :
1. Rôle d'exécution du travail
2. Mettre à jour la politique de confiance pour le rôle d'exécution du travail
3. Déployer et créer la stratégie IAM pour le contrôleur AWS Load Balancer
4. Rôle de service EMR Studio
5. Rôle utilisateur EMR Studio
6. Politiques utilisateur d'EMR Studio associé aux utilisateurs et groupes AWS SSO
Enregistrer le cluster Amazon EKS auprès d'Amazon EMR pour créer le cluster EMR virtuel
Créer le approprié groupes de sécurité à rattacher à chaque EMR Studio créé :
1. Groupe de sécurité de l'espace de travail
2. Groupe de sécurité du moteur
Marquez les groupes de sécurité avec les balises appropriées. Pour les instructions, voir Créer un rôle de service EMR Studio.

Installations requises dans Amazon EKS

Déployez le Contrôleur d'équilibreur de charge AWS dans le cluster Amazon EKS si vous ne l'avez pas déjà fait.

Créez un DME sur les éléments pertinents d'EKS et mappez l'utilisateur à EMR Studio

Effectuez les étapes suivantes:

Créez au moins un cluster virtuel EMR associé au cluster Amazon EKS. Pour obtenir des instructions, voir l'étape 1 de Configurer Amazon EMR sur EKS pour EMR Studio.
Créez au moins un point de terminaison géré. Pour obtenir des instructions, voir l'étape 2 de Configurer Amazon EMR sur EKS pour EMR Studio.
Créer au moins un studio EMR ; associez EMR Studio aux sous-réseaux privés configurés avec le cluster Amazon EKS. Pour les instructions, voir Créer un studio EMR.
Lorsque le Studio EMR est disponible, mapper un utilisateur ou un groupe AWS SSO à EMR Studio et appliquez une stratégie IAM appropriée à cet utilisateur.

Utiliser EMR Studio

Pour commencer à utiliser EMR Studio, procédez comme suit :

Recherchez l'URL d'EMR Studio par les studios d'une région :

$ aws emr list-studios --region us-east-1
{ "Studios": [ { "StudioId": "es-XXXXXXXXXXXXXXXXXXXXXX", "Name": "emr_studio_1", "VpcId": "vpc-XXXXXXXXXXXXXXXXXXXX", "Url": "https://es-XXXXXXXXXXXXXXXXXXXXXX.emrstudio-prod.us-east-1.amazonaws.com", "CreationTime": "2021-02-10T14:04:13.672000+00:00" } ]
}

Avec l'URL répertoriée, connectez-vous en utilisant le nom d'utilisateur AWS SSO que vous avez utilisé précédemment.

Après authentification, l'utilisateur est redirigé vers le tableau de bord EMR Studio.

Selectionnez Créer un espace de travail.
Pour Nom de l'espace de travail, entrez un nom.
Pour Sous-réseau, choisissez le sous-réseau qui correspond à l'un des sous-réseaux associés au groupe de nœuds gérés.
Pour Emplacement S3, entrez un compartiment S3 dans lequel vous pouvez stocker le contenu du bloc-notes.

Après avoir créé l'espace de travail, choisissez-en un qui se trouve dans le Ready état.

Dans la barre latérale, choisissez l'icône du cluster EMR.
Sous Type de grappe¸ choisissez Cluster EMR sur EKS.
Choisissez le cluster virtuel disponible et le point de terminaison géré disponible.
Selectionnez Attacher.

Une fois attaché, EMR Studio affiche les noyaux disponibles dans le Cahier ainsi que Console .

Selectionnez PySpark (Kubernetes) pour lancer un noyau de notebook et démarrer une session Spark.

Étant donné que la configuration du point de terminaison utilise ici AWS Glue pour son métastore, vous pouvez répertorier les bases de données et les tables connectées au catalogue de données AWS Glue. Vous pouvez utiliser l'exemple de script suivant pour tester la configuration. Modifiez le script si nécessaire pour la base de données et la table appropriées que vous avez dans votre catalogue de données :

words='Welcome to Amazon EMR Studio'.split(' ')
wordRDD = sc.parallelize(words)
wc = wordRDD.map(lambda word: (word, 1)).reduceByKey(lambda a,b: a+b)
print(wc.collect()) # Connect to Glue Catalog
spark.sql("""show databases like '< Database Name >'""").show(truncate=False)
spark.sql("""show tables in < Database Name >""").show(truncate=False)
# Run a simple select
spark.sql("""select * from < Database Name >.< Table Name > limit 10""").show(truncate=False)

Nettoyer

Pour éviter d'encourir des frais futurs, supprimez les ressources lancées ici en exécutant remove_setup.sh :

# Launch the script
$ bash ./remove_setup.sh</p>

Conclusion

EMR sur EKS vous permet d'exécuter des applications sur un pool commun de ressources au sein d'un cluster Amazon EKS sans avoir à provisionner l'infrastructure. EMR Studio est un bloc-notes et un outil Jupyter entièrement gérés qui provisionnent les noyaux qui s'exécutent sur des clusters EMR, y compris des clusters virtuels sur Amazon EKS. Dans cet article, nous avons décrit l'architecture de la façon dont EMR Studio se connecte à EMR sur EKS et fourni des scripts pour déployer automatiquement tous les composants permettant de connecter les deux services.

Si vous avez des questions ou des suggestions, veuillez laisser un commentaire.

À propos des auteurs

Randy DeFauw est architecte de solutions principal chez Amazon Web Services. Il travaille avec les clients AWS pour fournir des conseils et une assistance technique sur les projets de bases de données, les aidant ainsi à améliorer la valeur de leurs solutions lors de l'utilisation d'AWS.

Matthieu Tan est architecte senior de solutions d'analyse chez Amazon Web Services et fournit des conseils aux clients développant des solutions avec les services AWS Analytics sur leurs charges de travail d'analyse.

Source : https://aws.amazon.com/blogs/big-data/configure-amazon-emr-studio-and-amazon-eks-to-run-notebooks-with-amazon-emr-on-eks/

Horodatage: 24 septembre 2021

Horodatage: 31 août 2021

À venir en janvier 2022 : une expérience de connexion Amazon QuickSight mise à jour

Cluster source:

AWS

Nœud source: 1876560

Horodatage: Le 28 septembre 2021

Automatisez la gestion des utilisateurs et des groupes Amazon QuickSight à l'aide des données LDAP pour la sécurité au niveau des lignes

Cluster source:

AWS

Nœud source: 1052621

Horodatage: 19 août 2021

Établir une connectivité privée entre Amazon QuickSight et Snowflake à l'aide d'AWS PrivateLink

Cluster source:

AWS

Nœud source: 1858655

Horodatage: Le 22 juillet 2021

Configurer Amazon EMR Studio et Amazon EKS pour exécuter des blocs-notes avec Amazon EMR sur EKS

Republié par Platon

Aperçu de l'architecture

Attachez EMR Studio à un cluster virtuel et à un point de terminaison géré

Configurer EMR sur EKS et EMR Studio

Pré-requis

Script Bash

Pré-requis

Préparation

Déployer la pile

Script AWS CDK

Pré-requis

Préparation

Déployer les piles

Déploiement manuel

Configurer un VPC

Créer un cluster Amazon EKS

Créez des stratégies IAM, des rôles, des IdP et des certificats SSL/TLS pertinents

Installations requises dans Amazon EKS

Créez un DME sur les éléments pertinents d'EKS et mappez l'utilisateur à EMR Studio

Utiliser EMR Studio

Nettoyer

Conclusion

À propos des auteurs

Plus de AWS

Nouvelles fonctionnalités d'Apache Hudi 0.7.0 et 0.8.0 disponibles sur Amazon EMR

Interrogez une base de données Teradata à l'aide d'Amazon Athena Federated Query et joignez-vous aux données de votre lac de données Amazon S3

Simplifiez l'ingestion de données entrantes avec des ensembles de données paramétrés dynamiques dans AWS Glue DataBrew

Premiers pas avec l'API de données Amazon Redshift

À venir en janvier 2022 : une expérience de connexion Amazon QuickSight mise à jour

Établir une connectivité privée entre Amazon QuickSight et Snowflake à l'aide d'AWS PrivateLink

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte