Configure Amazon EMR Studio y Amazon EKS para ejecutar notebooks con Amazon EMR en EKS

Reeditado por Platón

seguidores: 0

Amazon EMR en Amazon EKS proporciona una opción de implementación para EMR de Amazon que le permite ejecutar cargas de trabajo analíticas en Servicio Amazon Elastic Kubernetes (Amazon EKS). Esta es una opción atractiva porque le permite ejecutar aplicaciones en un grupo común de recursos sin tener que aprovisionar infraestructura. Además, puede utilizar Estudio de Amazon EMR para crear código de análisis que se ejecute en clústeres de Amazon EKS. EMR Studio es un entorno de desarrollo integrado (IDE) basado en la web que utiliza cuadernos Jupyter totalmente administrados que se pueden conectar a cualquier clúster de EMR, incluido EMR en EKS. Usa Inicio de sesión único de AWS (SSO) o un proveedor de identidad compatible (IdP) para iniciar sesión directamente en EMR Studio a través de una URL segura con credenciales corporativas.

La implementación de EMR Studio para adjuntar a EMR en EKS requiere la integración de varios servicios de AWS:

Además, debe instalar el siguiente EMR en los componentes de EKS:

Esta publicación lo ayuda a construir todos los componentes necesarios y unirlos ejecutando un solo script. También describimos la arquitectura de esta configuración y cómo los componentes trabajan juntos.

Descripción de la arquitectura

Con EMR en EKS, puede ejecutar aplicaciones Spark junto con otros tipos de aplicaciones en el mismo clúster de Amazon EKS, lo que mejora la asignación de recursos y simplifica la administración de la infraestructura. Para obtener más información sobre cómo funciona Amazon EMR dentro de un clúster de Amazon EKS, consulte Nuevo: Amazon EMR en Amazon Elastic Kubernetes Service (EKS). EMR Studio proporciona un IDE basado en web que facilita el desarrollo, la visualización y la depuración de aplicaciones que se ejecutan en EMR. Para más información, ver Amazon EMR Studio (versión preliminar): una nueva experiencia IDE para portátiles con Amazon EMR.

Los kernels Spark son pods programados en un espacio de nombres en un clúster de Amazon EKS. EMR Studio utiliza Jupyter Enterprise Gateway (JEG) para lanzar núcleos Spark en Amazon EKS. Un extremo administrado de tipo JEG se aprovisiona como una implementación de Kubernetes en el espacio de nombres asociado del clúster virtual de EMR y se expone como un servicio de Kubernetes. Cada clúster virtual de EMR se asigna a un espacio de nombres de Kubernetes registrado con el clúster de Amazon EKS; Los clústeres virtuales no administran la computación física ni el almacenamiento, sino que apuntan al espacio de nombres de Kubernetes donde se programa la carga de trabajo. Cada clúster virtual puede tener varios puntos finales administrados, cada uno con sus propios kernels configurados para diferentes casos de uso y necesidades. Los puntos de enlace administrados por JEG proporcionan puntos de enlace HTTPS, atendidos por un balanceador de carga de aplicaciones (ALB), a los que solo se puede acceder desde EMR Studio y portátiles autohospedados que se crean dentro de una subred privada de la VPC de Amazon EKS.

El siguiente diagrama ilustra la arquitectura de la solución.

El punto de enlace administrado se crea en el espacio de nombres de Amazon EKS del clúster virtual (en este caso, sparkns) y los puntos finales HTTPS reciben servicio desde subredes privadas. Los pods del kernel se ejecutan con el rol de IAM de ejecución de trabajos definido en el extremo administrado. Durante la creación de un punto de enlace administrado, EMR en EKS usa AWS Load Balancer Controller en el kube-system espacio de nombres para crear un ALB con un grupo de destino que se conecta con el punto final administrado por JEG en el espacio de nombres de Kubernetes del clúster virtual.

Puede configurar el kernel de cada punto final administrado de manera diferente. Por ejemplo, para permitir que un kernel de Spark utilice Pegamento AWS como su catálogo, puede aplicar el siguiente archivo JSON de configuración en el -configuration-overrides marca al crear un punto final administrado:

aws emr-containers create-managed-endpoint --type JUPYTER_ENTERPRISE_GATEWAY --virtual-cluster-id ${virtclusterid} --name ${virtendpointname} --execution-role-arn ${role_arn} --release-label ${emr_release_label} --certificate-arn ${certarn} --region ${region} --configuration-overrides '{ "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory", "spark.sql.catalogImplementation": "hive" } } ] }'

El punto final administrado es una implementación de Kubernetes liderada por un servicio dentro del espacio de nombres configurado (en este caso, sparkns). Cuando rastreamos la información del punto final, podemos ver cómo la implementación de Jupyter Enterprise Gateway se conecta con el ALB y el grupo objetivo:

# Get the endpoint ID
aws emr-containers list-managed-endpoints --region us-east-1 --virtual-cluster-id idzdhw2qltdr0dxkgx2oh4bp1
{ "endpoints": [ { "id": "5vbuwntrbzil1", "name": "virtual-emr-endpoint-demo", ... "serverUrl": "https://internal-k8s-default-ingress5-4f482e2d41-2097665209.us-east-1.elb.amazonaws.com:18888", # List the deployment
kubectl get deployments -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME READY UP-TO-DATE AVAILABLE AGE
jeg-5vbuwntrbzil1 1/1 1 1 4h54m # List the service
kubectl get svc -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service-5vbuwntrbzil1 NodePort 10.100.172.157 <none> 18888:30091/TCP 4h58m # List the TargetGroups to get the TargetGroup ARN kubectl get targetgroupbinding -n sparkns -o json | jq .items | jq .[].spec.targetGroupARN "arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8" # Get the TargetGroup Port number aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].Port 30091 # Get Load Balancer ARN aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].LoadBalancerArns | jq .[] "arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273" # Get Listener Port number aws elbv2 describe-listeners --load-balancer-arn arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273 | jq .Listeners | jq .[].Port 18888

Para ver cómo se conecta esto, considere dos sesiones de EMR Studio. El ALB expone el puerto 18888 a las sesiones de EMR Studio. El servicio JEG asigna el puerto externo 18888 en el ALB a la dinámica NodePort en el servicio JEG (en este caso, 30091). El servicio JEG reenvía el tráfico al TargetPort 9547, que enruta el tráfico al módulo de controladores Spark apropiado. Cada sesión de notebook tiene su propio kernel, que tiene sus respectivos pods de controlador y ejecutor Spark, como se ilustra en el siguiente diagrama.

Conecte EMR Studio a un clúster virtual y un punto final administrado

Cada vez que un usuario adjunta un clúster virtual y un punto final administrado a su espacio de trabajo de Studio y lanza una sesión de Spark, se programan controladores y ejecutores de Spark. Puedes ver eso cuando corres kubectl para comprobar qué pods se lanzaron:

$ kubectl get all -l app=enterprise-gateway
NAME READY STATUS RESTARTS AGE
pod/kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m38s $ kubectl get pods -n sparkns
NAME READY STATUS RESTARTS AGE
jeg-5vbuwntrbzil1-5fc8469d5f-pfdv9 1/1 Running 0 3d7h
kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m46s

Cada sesión del kernel de Spark de notebook implementa un pod de controlador y pods de ejecutor que continúan ejecutándose hasta que se cierra la sesión del kernel.

El código de las celdas del cuaderno se ejecuta en los pods ejecutores que se implementaron en el clúster de Amazon EKS.

Configurar EMR en EKS y EMR Studio

Se requieren varios pasos y piezas para configurar EMR en EKS y EMR Studio. Habilitar AWS SSO es un requisito previo. Puede utilizar los dos scripts de inicio proporcionados en esta sección o implementarlo manualmente siguiendo los pasos que se proporcionan más adelante en esta publicación.

Proporcionamos dos scripts de lanzamiento en esta publicación. Uno es un script bash que usa Formación en la nube de AWS, eksctl y Interfaz de línea de comandos de AWS (AWS CLI) para proporcionar una implementación de un extremo a otro de una solución completa. El otro usa el Kit de desarrollo en la nube de AWS (AWS CDK) para hacerlo.

El siguiente diagrama muestra la arquitectura y los componentes que implementamos.

Requisitos previos

Asegúrese de completar los siguientes requisitos previos:

Para obtener información sobre los IdP admitidos, consulte Habilite el inicio de sesión único de AWS para Amazon EMR Studio.

Guión Bash

El script está disponible en GitHub.

Requisitos previos

El script requiere que uses Nube de AWS9. Siga las instrucciones del Taller de Amazon EKS. Asegúrese de seguir estas instrucciones cuidadosamente:

Después de implementar el escritorio de AWS Cloud9, continúe con los siguientes pasos.

PREPARACIÓN

Utilice el siguiente código para clonar el repositorio de GitHub y preparar los requisitos previos de AWS Cloud9:

# Download script from the repository
$ git clone https://github.com/aws-samples/amazon-emr-on-eks-emr-studio.git # Prepare the Cloud9 Desktop pre-requisites
$ cd amazon-emr-on-eks-emr-studio
$ bash ./prepare_cloud9.sh

Implementar la pila

Antes de ejecutar el script, proporcione la siguiente información:

El ID y la región de la cuenta de AWS, si su escritorio de AWS Cloud9 no se encuentra en el mismo ID de cuenta o región donde desea implementar EMR en EKS
El nombre de la Servicio de almacenamiento simple de Amazon (Amazon S3) bucket para crear
El usuario de AWS SSO que se asociará con la sesión de EMR Studio

Una vez que el script implementa la pila, se muestra la URL del EMR Studio implementado:

# Launch the script and follow the instructions to provide user parameters
$ bash ./deploy_eks_cluster_bash.sh ...
Go to https://***. emrstudio-prod.us-east-1.amazonaws.com and login using < SSO user > ...

Secuencia de comandos de AWS CDK

Los scripts de AWS CDK están disponibles en GitHub. Necesitas revisar el main rama. Las pilas implementan un clúster de Amazon EKS y un EMR en un clúster virtual de EKS en una nueva VPC con subredes privadas y, opcionalmente, una Flujo de aire Apache administrado por Amazon (Amazon MWAA) y EMR Studio.

Requisitos previos

Necesita AWS CDK versión 1.90.1 o superior. Para más información, ver Introducción a AWS CDK.

Usamos una lista de prefijos para restringir el acceso a algunos recursos a los rangos de IP de red que usted aprueba. Crear un lista de prefijos si aún no tienes uno.

Si planea usar EMR Studio, necesita AWS SSO configurado en su cuenta.

PREPARACIÓN

Después de clonar el repositorio y verificar el main branch, cree y active un nuevo entorno virtual de Python:

# Clone the repository
$ git clone https://github.com/aws-samples/aws-cdk-for-emr-on-eks.git
$ cd aws-cdk-for-emr-on-eks/
$ git checkout main # $ python3 -m venv .venv
$ source .venv/bin/activate

Ahora instale las dependencias de Python:

$ pip install -r requirements.txt

Por último, inicie AWS CDK:

$ cdk bootstrap aws://<account>/<region> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Implementar las pilas

Sintetice las pilas de AWS CDK con el siguiente código:

$ cdk synth --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Este comando genera cuatro pilas:

emr-eks-cdk - La pila principal
mwaa-cdk - Agrega Amazon MWAA
estudio-cdk - Agrega los requisitos previos de EMR Studio
estudio-cdk-live - Agrega EMR Studio

El siguiente diagrama ilustra los recursos implementados por las pilas de AWS CDK.

Comience implementando la primera pila:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> emr-eks-cdk

Si desea utilizar Apache Airflow como su orquestador, implemente esa pila:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> mwaa-cdk

Implemente la primera pila de EMR Studio:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-cdk

Espere a que el punto final administrado se active. Puede verificar el estado ejecutando el siguiente código:

$ aws emr-containers list-managed-endpoints --virtual-cluster-id <cluster ID> | jq '.endpoints[].state'

El ID de clúster virtual está disponible en la salida de AWS CDK de la pila emr-eks-cdk.

Cuando el punto final esté activo, implemente la segunda pila de EMR Studio:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-live-cdk

Despliegue manual

Si prefiere implementar EMR manualmente en EKS y EMR Studio, siga los pasos de esta sección.

Configurar una VPC

Si usa Amazon EKS v. 1.18, configure una VPC que también tenga subredes privadas y esté etiquetada adecuadamente para balanceadores de carga externos. Para etiquetar, consulte: Equilibrio de carga de aplicaciones en Amazon EKS y Crear un rol de servicio de EMR Studio.

Cree un clúster de Amazon EKS

Lance un clúster de Amazon EKS con al menos un grupo de nodos administrado. Para obtener instrucciones, consulte Configuración y Introducción a Amazon EKS.

Cree políticas, roles, IdP y certificados SSL / TLS relevantes de IAM

Para crear sus políticas de IAM, roles, IdP y certificado SSL / TLS, complete los siguientes pasos:

Habilite el acceso al clúster para EMR en EKS.
Cree un IdP en IAM basado en la URL del proveedor de EKS OIDC.
Cree un certificado SSL / TLS y colóquelo en Administrador de certificados de AWS.
Cree las políticas y roles de IAM relevantes:
1. Rol de ejecución del trabajo
2. Actualizar la política de confianza para el rol de ejecución del trabajo
3. Implemente y cree la política de IAM para AWS Load Balancer Controller
4. Rol de servicio de EMR Studio
5. Rol de usuario de EMR Studio
6. Políticas de usuario de EMR Studio asociado con usuarios y grupos de AWS SSO
Registre el clúster de Amazon EKS con Amazon EMR para crear el clúster de EMR virtual
Crea el apropiado grupos de seguridad que se adjuntará a cada EMR Studio creado:
1. Grupo de seguridad del espacio de trabajo
2. Grupo de seguridad del motor
Etiquete los grupos de seguridad con las etiquetas adecuadas. Para obtener instrucciones, consulte Crear un rol de servicio de EMR Studio.

Instalaciones necesarias en Amazon EKS

Implementar el Controlador de balanceador de carga de AWS en el clúster de Amazon EKS si aún no lo ha hecho.

Cree EMR en piezas relevantes de EKS y asigne al usuario a EMR Studio

Complete los siguientes pasos:

Cree al menos un clúster virtual de EMR asociado con el clúster de Amazon EKS. Para obtener instrucciones, consulte el Paso 1 de Configurar Amazon EMR en EKS para EMR Studio.
Cree al menos un punto final administrado. Para obtener instrucciones, consulte el Paso 2 de Configurar Amazon EMR en EKS para EMR Studio.
Cree al menos un EMR Studio; asociar EMR Studio con las subredes privadas configuradas con el clúster de Amazon EKS. Para obtener instrucciones, consulte Cree un estudio EMR.
Cuando EMR Studio esté disponible, asignar un usuario o grupo de AWS SSO a EMR Studio y aplicar una política de IAM adecuada a ese usuario.

Utilice EMR Studio

Para comenzar a usar EMR Studio, complete los siguientes pasos:

Busque la URL de EMR Studio por los estudios en una región:

$ aws emr list-studios --region us-east-1
{ "Studios": [ { "StudioId": "es-XXXXXXXXXXXXXXXXXXXXXX", "Name": "emr_studio_1", "VpcId": "vpc-XXXXXXXXXXXXXXXXXXXX", "Url": "https://es-XXXXXXXXXXXXXXXXXXXXXX.emrstudio-prod.us-east-1.amazonaws.com", "CreationTime": "2021-02-10T14:04:13.672000+00:00" } ]
}

Con la URL que aparece en la lista, inicie sesión con el nombre de usuario de AWS SSO que utilizó anteriormente.

Después de la autenticación, se enruta al usuario al panel de EMR Studio.

Elige Crear espacio de trabajo.
Nombre del espacio de trabajo, ingresa un nombre.
Subred, elija la subred que corresponda a una de las subredes asociadas con el grupo de nodos administrados.
Ubicación S3, ingrese un bucket de S3 donde pueda almacenar el contenido del notebook.

Después de crear el espacio de trabajo, elija uno que esté en el Ready de estado.

En la barra lateral, elija el icono de clúster de EMR.
under Tipo de clústerescoger Clúster EMR en EKS.
Elija el clúster virtual disponible y el punto final administrado disponible.
Elige Adjuntar.

Una vez adjunto, EMR Studio muestra los kernels disponibles en el Notebook y Consola .

Elige PySpark (Kubernetes) para iniciar un kernel de cuaderno e iniciar una sesión de Spark.

Debido a que la configuración del punto de enlace aquí utiliza AWS Glue para su tienda de metadatos, puede enumerar las bases de datos y tablas conectadas al AWS Glue Data Catalog. Puede utilizar el siguiente script de ejemplo para probar la configuración. Modifique el script según sea necesario para la base de datos y la tabla adecuadas que tenga en su Catálogo de datos:

words='Welcome to Amazon EMR Studio'.split(' ')
wordRDD = sc.parallelize(words)
wc = wordRDD.map(lambda word: (word, 1)).reduceByKey(lambda a,b: a+b)
print(wc.collect()) # Connect to Glue Catalog
spark.sql("""show databases like '< Database Name >'""").show(truncate=False)
spark.sql("""show tables in < Database Name >""").show(truncate=False)
# Run a simple select
spark.sql("""select * from < Database Name >.< Table Name > limit 10""").show(truncate=False)

Limpiar

Para evitar incurrir en cargos futuros, elimine los recursos lanzados aquí ejecutando remove_setup.sh:

# Launch the script
$ bash ./remove_setup.sh</p>

Conclusión

EMR en EKS le permite ejecutar aplicaciones en un grupo común de recursos dentro de un clúster de Amazon EKS sin tener que aprovisionar infraestructura. EMR Studio es una herramienta y un cuaderno de Jupyter totalmente administrado que aprovisiona los kernels que se ejecutan en clústeres de EMR, incluidos los clústeres virtuales en Amazon EKS. En esta publicación, describimos la arquitectura de cómo EMR Studio se conecta con EMR en EKS y proporcionamos scripts para implementar automáticamente todos los componentes para conectar los dos servicios.

Si tiene preguntas o sugerencias, deje un comentario.

Acerca de los autores

Randy DeFauw es arquitecto principal de soluciones en Amazon Web Services. Trabaja con los clientes de AWS para proporcionar orientación y asistencia técnica en proyectos de bases de datos, ayudándoles a mejorar el valor de sus soluciones cuando utilizan AWS.

mateo bronceado es arquitecto sénior de soluciones de análisis en Amazon Web Services y proporciona orientación a los clientes que desarrollan soluciones con los servicios de AWS Analytics en sus cargas de trabajo de análisis.

Fuente: https://aws.amazon.com/blogs/big-data/configure-amazon-emr-studio-and-amazon-eks-to-run-notebooks-with-amazon-emr-on-eks/

Sello de tiempo: 24 de septiembre de 2021

Sello de tiempo: 31 de Agosto, 2021

A partir de enero de 2022: una experiencia de inicio de sesión actualizada de Amazon QuickSight

Clúster de origen:

AWS

Nodo de origen: 1876560

Sello de tiempo: 28 de septiembre de 2021

Automatice la administración de usuarios y grupos de Amazon QuickSight utilizando datos LDAP para seguridad a nivel de fila

Clúster de origen:

AWS

Nodo de origen: 1052621

Sello de tiempo: 19 de Agosto, 2021

Establezca conectividad privada entre Amazon QuickSight y Snowflake mediante AWS PrivateLink

Clúster de origen:

AWS

Nodo de origen: 1858655

Sello de tiempo: 22 de jul, 2021

Configure Amazon EMR Studio y Amazon EKS para ejecutar portátiles con Amazon EMR en EKS

Reeditado por Platón

Descripción de la arquitectura

Conecte EMR Studio a un clúster virtual y un punto final administrado

Configurar EMR en EKS y EMR Studio

Requisitos previos

Guión Bash

Requisitos previos

PREPARACIÓN

Implementar la pila

Secuencia de comandos de AWS CDK

Requisitos previos

PREPARACIÓN

Implementar las pilas

Despliegue manual

Configurar una VPC

Cree un clúster de Amazon EKS

Cree políticas, roles, IdP y certificados SSL / TLS relevantes de IAM

Instalaciones necesarias en Amazon EKS

Cree EMR en piezas relevantes de EKS y asigne al usuario a EMR Studio

Utilice EMR Studio

Limpiar

Conclusión

Acerca de los autores

Mas de AWS

Nuevas funciones de Apache Hudi 0.7.0 y 0.8.0 disponibles en Amazon EMR

Consulte una base de datos de Teradata con Amazon Athena Federated Query y únase a los datos de su lago de datos de Amazon S3

Simplifique la ingestión de datos entrantes con conjuntos de datos dinámicos parametrizados en AWS Glue DataBrew

Empiece a utilizar la API de datos de Amazon Redshift

A partir de enero de 2022: una experiencia de inicio de sesión actualizada de Amazon QuickSight

Establezca conectividad privada entre Amazon QuickSight y Snowflake mediante AWS PrivateLink

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta