Konfigurera Amazon EMR Studio och Amazon EKS för att köra bärbara datorer med Amazon EMR på EKS

Återutgiven av Platon

anhängare: 0

Amazon EMR på Amazon EKS ger ett distributionsalternativ för Amazon EMR som låter dig köra analytiska arbetsbelastningar på Amazon Elastic Kubernetes-tjänst (Amazon EKS). Detta är ett attraktivt alternativ eftersom det låter dig köra applikationer på en gemensam resurspool utan att behöva tillhandahålla infrastruktur. Dessutom kan du använda Amazon EMR Studio att bygga analyskod som körs på Amazon EKS-kluster. EMR Studio är en webbaserad, integrerad utvecklingsmiljö (IDE) som använder fullt hanterade Jupyter-anteckningsböcker som kan kopplas till alla EMR-kluster, inklusive EMR på EKS. Det använder AWS-inloggning (SSO) eller en kompatibel identitetsleverantör (IdP) för att logga in direkt på EMR Studio via en säker URL med hjälp av företagsuppgifter.

Att distribuera EMR Studio för att koppla till EMR på EKS kräver att flera AWS-tjänster integreras:

Dessutom måste du installera följande EMR på EKS-komponenter:

Det här inlägget hjälper dig att bygga alla nödvändiga komponenter och sy ihop dem genom att köra ett enda skript. Vi beskriver också arkitekturen för denna installation och hur komponenterna fungerar tillsammans.

Arkitekturöversikt

Med EMR på EKS kan du köra Spark-applikationer tillsammans med andra typer av applikationer på samma Amazon EKS-kluster, vilket förbättrar resursallokeringen och förenklar infrastrukturhanteringen. För mer information om hur Amazon EMR fungerar i ett Amazon EKS-kluster, se Nytt – Amazon EMR på Amazon Elastic Kubernetes Service (EKS). EMR Studio tillhandahåller en webbaserad IDE som gör det enkelt att utveckla, visualisera och felsöka applikationer som körs i EMR. För mer information, se Amazon EMR Studio (Preview): En ny notebook-första IDE-upplevelse med Amazon EMR.

Spark-kärnor är schemalagda poddar i ett namnområde i ett Amazon EKS-kluster. EMR Studio använder Jupyter Enterprise Gateway (JEG) för att lansera Spark-kärnor på Amazon EKS. En hanterad slutpunkt av typen JEG tillhandahålls som en Kubernetes-distribution i det virtuella EMR-klustrets associerade namnområde och exponeras som en Kubernetes-tjänst. Varje virtuellt EMR-kluster mappas till ett Kubernetes-namnområde registrerat hos Amazon EKS-klustret; virtuella kluster hanterar inte fysisk beräkning eller lagring, utan pekar på Kubernetes-namnutrymmet där arbetsbelastningen är schemalagd. Varje virtuellt kluster kan ha flera hanterade slutpunkter, var och en med sina egna konfigurerade kärnor för olika användningsfall och behov. JEG-hanterade slutpunkter tillhandahåller HTTPS-slutpunkter, som betjänas av en Application Load Balancer (ALB), som endast kan nås från EMR Studio och egna bärbara datorer som skapas inom ett privat undernät av Amazon EKS VPC.

Följande diagram illustrerar lösningsarkitekturen.

Den hanterade slutpunkten skapas i det virtuella klustrets Amazon EKS-namnområde (i det här fallet, sparkns) och HTTPS-ändpunkterna betjänas från privata undernät. Kärnpodarna körs med IAM-rollen för jobbutförande definierad i den hanterade slutpunkten. Under skapande av hanterade slutpunkter använder EMR på EKS AWS Load Balancer Controller i kube-system namnområde för att skapa en ALB med en målgrupp som ansluter till den JEG-hanterade slutpunkten i det virtuella klustrets Kubernetes-namnområde.

Du kan konfigurera varje hanterad slutpunkts kärna på olika sätt. Till exempel för att tillåta en Spark-kärna att använda AWS-lim som deras katalog kan du använda följande JSON-konfigurationsfil i —configuration-overrides flagga när du skapar en hanterad slutpunkt:

aws emr-containers create-managed-endpoint --type JUPYTER_ENTERPRISE_GATEWAY --virtual-cluster-id ${virtclusterid} --name ${virtendpointname} --execution-role-arn ${role_arn} --release-label ${emr_release_label} --certificate-arn ${certarn} --region ${region} --configuration-overrides '{ "applicationConfiguration": [ { "classification": "spark-defaults", "properties": { "spark.hadoop.hive.metastore.client.factory.class": "com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory", "spark.sql.catalogImplementation": "hive" } } ] }'

Den hanterade slutpunkten är en Kubernetes-distribution som frontas av en tjänst inom det konfigurerade namnområdet (i det här fallet, sparkns). När vi spårar slutpunktsinformationen kan vi se hur Jupyter Enterprise Gateway-distributionen ansluter till ALB och målgruppen:

# Get the endpoint ID
aws emr-containers list-managed-endpoints --region us-east-1 --virtual-cluster-id idzdhw2qltdr0dxkgx2oh4bp1
{ "endpoints": [ { "id": "5vbuwntrbzil1", "name": "virtual-emr-endpoint-demo", ... "serverUrl": "https://internal-k8s-default-ingress5-4f482e2d41-2097665209.us-east-1.elb.amazonaws.com:18888", # List the deployment
kubectl get deployments -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME READY UP-TO-DATE AVAILABLE AGE
jeg-5vbuwntrbzil1 1/1 1 1 4h54m # List the service
kubectl get svc -n sparkns -l "emr-containers.amazonaws.com/managed-endpoint-id=5vbuwntrbzil1" NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service-5vbuwntrbzil1 NodePort 10.100.172.157 <none> 18888:30091/TCP 4h58m # List the TargetGroups to get the TargetGroup ARN kubectl get targetgroupbinding -n sparkns -o json | jq .items | jq .[].spec.targetGroupARN "arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8" # Get the TargetGroup Port number aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].Port 30091 # Get Load Balancer ARN aws elbv2 describe-target-groups --target-group-arns arn:aws:elasticloadbalancing:us-east-1:< account id >:targetgroup/k8s-sparkns-servicey-a37caa5e1e/02d10652a64cebd8 | jq .TargetGroups | jq .[].LoadBalancerArns | jq .[] "arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273" # Get Listener Port number aws elbv2 describe-listeners --load-balancer-arn arn:aws:elasticloadbalancing:us-east-1:< account id >:loadbalancer/app/k8s-sparkns-ingressy-830efa48aa/12199b1a7baee273 | jq .Listeners | jq .[].Port 18888

För att se hur detta hänger ihop, överväg två EMR Studio-sessioner. ALB exponerar port 18888 för EMR Studio-sessionerna. JEG-tjänsten mappar den externa porten 18888 på ALB till dynamiken NodePort på JEG-tjänsten (i detta fall 30091). JEG-tjänsten vidarebefordrar trafiken till TargetPort 9547, som dirigerar trafiken till lämplig Spark-förarkapsel. Varje anteckningsbokssession har sin egen kärna, som har sin egen Spark-drivrutin och executor-pod, som följande diagram illustrerar.

Anslut EMR Studio till ett virtuellt kluster och hanterad slutpunkt

Varje gång en användare kopplar ett virtuellt kluster och en hanterad slutpunkt till sin Studio Workspace och startar en Spark-session, schemaläggs Spark-drivrutiner och Spark-exekutorer. Det kan man se när man springer kubectl för att kontrollera vilka poddar som lanserades:

$ kubectl get all -l app=enterprise-gateway
NAME READY STATUS RESTARTS AGE
pod/kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m30s
pod/kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m38s $ kubectl get pods -n sparkns
NAME READY STATUS RESTARTS AGE
jeg-5vbuwntrbzil1-5fc8469d5f-pfdv9 1/1 Running 0 3d7h
kb1a317e8-b77b-448c-9b7d-exec-1 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-exec-2 1/1 Running 0 2m38s
kb1a317e8-b77b-448c-9b7d-driver 2/2 Running 0 2m46s

Varje Spark-kärnsession för notebook-datorn distribuerar en drivrutinspod och executor-pod som fortsätter att köras tills kärnsessionen stängs av.

Koden i anteckningsbokens celler körs i executor-podarna som distribuerades i Amazon EKS-klustret.

Ställ in EMR på EKS och EMR Studio

Flera steg och bitar krävs för att ställa in både EMR på EKS och EMR Studio. Att aktivera AWS SSO är en förutsättning. Du kan använda de två medföljande startskripten i det här avsnittet eller distribuera dem manuellt med hjälp av stegen som anges senare i det här inlägget.

Vi tillhandahåller två lanseringsskript i det här inlägget. Det ena är ett bash-skript som använder AWS molnformation, eksctl och AWS-kommandoradsgränssnitt (AWS CLI)-kommandon för att tillhandahålla en end-to-end-distribution av en komplett lösning. Den andra använder AWS Cloud Development Kit (AWS CDK) för att göra det.

Följande diagram visar arkitekturen och komponenterna som vi distribuerar.

Förutsättningar

Se till att uppfylla följande förutsättningar:

För information om de stödda IdP:er, se Aktivera AWS Single Sign-On för Amazon EMR Studio.

Bash-skript

Manuset finns tillgängligt på GitHub.

Förutsättningar

Skriptet kräver att du använder AWS Cloud9. Följ instruktionerna i Amazon EKS Workshop. Se till att följa dessa instruktioner noggrant:

När du har distribuerat AWS Cloud9-skrivbordet fortsätter du till nästa steg.

FÖRBEREDNING

Använd följande kod för att klona GitHub-repo och förbereda AWS Cloud9-förutsättningarna:

# Download script from the repository
$ git clone https://github.com/aws-samples/amazon-emr-on-eks-emr-studio.git # Prepare the Cloud9 Desktop pre-requisites
$ cd amazon-emr-on-eks-emr-studio
$ bash ./prepare_cloud9.sh

Distribuera stacken

Innan du kör skriptet, ange följande information:

AWS-konto-ID och region, om ditt AWS Cloud9-skrivbord inte finns i samma konto-ID eller region där du vill distribuera EMR på EKS
Namnet på Amazon enkel lagringstjänst (Amazon S3) hink att skapa
AWS SSO-användaren som ska kopplas till EMR Studio-sessionen

Efter att skriptet har distribuerat stacken visas URL:en till den distribuerade EMR Studio:

# Launch the script and follow the instructions to provide user parameters
$ bash ./deploy_eks_cluster_bash.sh ...
Go to https://***. emrstudio-prod.us-east-1.amazonaws.com and login using < SSO user > ...

AWS CDK-skript

AWS CDK-skripten är tillgängliga på GitHub. Du måste checka ut main gren. Stackarna distribuerar ett Amazon EKS-kluster och EMR på EKS virtuella kluster i en ny VPC med privata subnät, och valfritt en Amazon hanterade Apache Airflow (Amazon MWAA) miljö och EMR Studio.

Förutsättningar

Du behöver AWS CDK version 1.90.1 eller senare. För mer information, se Komma igång med AWS CDK.

Vi använder en prefixlista för att begränsa åtkomsten till vissa resurser till nätverks-IP-intervall som du godkänner. Skapa en prefixlista om du inte redan har en.

Om du planerar att använda EMR Studio behöver du AWS SSO konfigurerat i ditt konto.

FÖRBEREDNING

När du har klonat förvaret och checkat ut main förgrena sig, skapa och aktivera en ny virtuell Python-miljö:

# Clone the repository
$ git clone https://github.com/aws-samples/aws-cdk-for-emr-on-eks.git
$ cd aws-cdk-for-emr-on-eks/
$ git checkout main # $ python3 -m venv .venv
$ source .venv/bin/activate

Installera nu Python-beroendena:

$ pip install -r requirements.txt

Slutligen, bootstrap AWS CDK:

$ cdk bootstrap aws://<account>/<region> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Distribuera staplarna

Syntetisera AWS CDK-stackarna med följande kod:

$ cdk synth --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name>

Detta kommando genererar fyra stackar:

emr-eks-cdk – Huvudstacken
mwaa-cdk – Lägger till Amazon MWAA
studio-cdk – Lägger till EMR Studio-förutsättningar
studio-cdk-live – Lägger till EMR Studio

Följande diagram illustrerar resurserna som distribueras av AWS CDK-stackarna.

Börja med att distribuera den första stacken:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> emr-eks-cdk

Om du vill använda Apache Airflow som din orkestrator, distribuera den stacken:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> mwaa-cdk

Distribuera den första EMR Studio-stacken:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-cdk

Vänta tills den hanterade slutpunkten blir aktiv. Du kan kontrollera statusen genom att köra följande kod:

$ aws emr-containers list-managed-endpoints --virtual-cluster-id <cluster ID> | jq '.endpoints[].state'

Det virtuella kluster-ID:t är tillgängligt i AWS CDK-utgången från emr-eks-cdk-stacken.

När slutpunkten är aktiv, distribuera den andra EMR Studio-stacken:

$ cdk deploy <stack name> --context prefix=<prefix list> --context instance=m5.xlarge --context username=<SSO user name> studio-live-cdk

Manuell distribution

Om du föredrar att manuellt distribuera EMR på EKS och EMR Studio, använd stegen i det här avsnittet.

Skapa en VPC

Om du använder Amazon EKS v. 1.18, ställ in en VPC som också har privata undernät och är lämpligt taggade för externa lastbalanserare. För taggning, se: Applikationsbelastningsbalansering på Amazon EKS och Skapa en EMR Studio-tjänstroll.

Skapa ett Amazon EKS-kluster

Starta ett Amazon EKS-kluster med minst en hanterad nodgrupp. För instruktioner, se Inställning och Komma igång med Amazon EKS.

Skapa relevanta IAM-policyer, roller, IdP och SSL/TLS-certifikat

För att skapa dina IAM-policyer, roller, IdP och SSL/TLS-certifikat, utför följande steg:

Aktivera klusteråtkomst för EMR på EKS.
Skapa en IdP i IAM baserat på EKS OIDC-leverantörens URL.
Skapa ett SSL/TLS-certifikat och placera det i AWS certifikathanterare.
Skapa relevanta IAM-policyer och roller:
1. Arbetsutförande roll
2. Uppdatera förtroendepolicyn för uppdragsutföranderollen
3. Distribuera och skapa IAM-policyn för AWS Load Balancer Controller
4. EMR Studio tjänsteroll
5. EMR Studio användarroll
6. EMR Studio användarpolicyer associerade med AWS SSO-användare och grupper
Registrera Amazon EKS-klustret med Amazon EMR för att skapa det virtuella EMR-klustret
Skapa lämpliga säkerhetsgrupper som ska kopplas till varje skapad EMR-studio:
1. Arbetsplatssäkerhetsgrupp
2. Motorsäkerhetsgrupp
Tagga säkerhetsgrupperna med lämpliga taggar. För instruktioner, se Skapa en EMR Studio-tjänstroll.

Nödvändiga installationer i Amazon EKS

Distribuera AWS Load Balancer Controller i Amazon EKS-klustret om du inte redan har gjort det.

Skapa EMR på EKS-relevanta delar och mappa användaren till EMR Studio

Följ följande steg:

Skapa minst ett virtuellt EMR-kluster associerat med Amazon EKS-klustret. För instruktioner, se steg 1 av Konfigurera Amazon EMR på EKS för EMR Studio.
Skapa minst en hanterad slutpunkt. För instruktioner, se steg 2 av Konfigurera Amazon EMR på EKS för EMR Studio.
Skapa minst en EMR Studio; associera EMR Studio med de privata undernäten som konfigurerats med Amazon EKS-klustret. För instruktioner, se Skapa en EMR-studio.
När EMR Studio är tillgänglig, mappa en AWS SSO-användare eller grupp till EMR Studio och tillämpa en lämplig IAM-policy för den användaren.

Använd EMR Studio

För att börja använda EMR Studio, slutför följande steg:

Hitta webbadressen till EMR Studio av studiorna i en region:

$ aws emr list-studios --region us-east-1
{ "Studios": [ { "StudioId": "es-XXXXXXXXXXXXXXXXXXXXXX", "Name": "emr_studio_1", "VpcId": "vpc-XXXXXXXXXXXXXXXXXXXX", "Url": "https://es-XXXXXXXXXXXXXXXXXXXXXX.emrstudio-prod.us-east-1.amazonaws.com", "CreationTime": "2021-02-10T14:04:13.672000+00:00" } ]
}

Med den angivna URL:en loggar du in med AWS SSO-användarnamnet du använde tidigare.

Efter autentisering dirigeras användaren till EMR Studios instrumentpanel.

Välja Skapa arbetsyta.
För Arbetsytans namn, ange ett namn.
För subnät, välj det undernät som motsvarar ett av undernäten som är associerade med den hanterade nodgruppen.
För S3-plats, ange en S3-hink där du kan lagra anteckningsbokens innehåll.

När du har skapat arbetsytan väljer du en som finns i Ready status.

Välj ikonen EMR-kluster i sidofältet.
Enligt Klustertyp¸ välja EMR-kluster på EKS.
Välj det tillgängliga virtuella klustret och den tillgängliga hanterade slutpunkten.
Välja Bifoga.

Efter att den har bifogats visar EMR Studio de kärnor som finns tillgängliga i Notebook och Konsol sektion.

Välja PySpark (Kubernetes) för att starta en bärbar datorkärna och starta en Spark-session.

Eftersom slutpunktskonfigurationen här använder AWS Glue för sin metastore, kan du lista de databaser och tabeller som är anslutna till AWS Glue Data Catalog. Du kan använda följande exempelskript för att testa installationen. Ändra skriptet efter behov för lämplig databas och tabell som du har i din datakatalog:

words='Welcome to Amazon EMR Studio'.split(' ')
wordRDD = sc.parallelize(words)
wc = wordRDD.map(lambda word: (word, 1)).reduceByKey(lambda a,b: a+b)
print(wc.collect()) # Connect to Glue Catalog
spark.sql("""show databases like '< Database Name >'""").show(truncate=False)
spark.sql("""show tables in < Database Name >""").show(truncate=False)
# Run a simple select
spark.sql("""select * from < Database Name >.< Table Name > limit 10""").show(truncate=False)

Städa upp

För att undvika framtida avgifter, ta bort resurserna som startas här genom att köra remove_setup.sh:

# Launch the script
$ bash ./remove_setup.sh</p>

Slutsats

EMR på EKS låter dig köra applikationer på en gemensam resurspool i ett Amazon EKS-kluster utan att behöva tillhandahålla infrastruktur. EMR Studio är en fullständigt hanterad Jupyter-anteckningsbok och ett verktyg som tillhandahåller kärnor som körs på EMR-kluster, inklusive virtuella kluster på Amazon EKS. I det här inlägget beskrev vi arkitekturen för hur EMR Studio ansluter med EMR på EKS och tillhandahöll skript för att automatiskt distribuera alla komponenter för att ansluta de två tjänsterna.

Om du har frågor eller förslag, vänligen lämna en kommentar.

Om författarna

Randy DeFauw är en Principal Solutions Architect på Amazon Web Services. Han arbetar med AWS-kunderna för att ge vägledning och teknisk assistans i databasprojekt och hjälpa dem att förbättra värdet av sina lösningar när de använder AWS.

Matthew Tan är Senior Analytics Solutions Architect på Amazon Web Services och ger vägledning till kunder som utvecklar lösningar med AWS Analytics-tjänster för deras analysarbete.

Källa: https://aws.amazon.com/blogs/big-data/configure-amazon-emr-studio-and-amazon-eks-to-run-notebooks-with-amazon-emr-on-eks/

Tidsstämpel: September 24, 2021

Tidsstämpel: Augusti 31, 2021

Kommer januari 2022: En uppdaterad Amazon QuickSight-inloggningsupplevelse

Källkluster:

AWS

Källnod: 1876560

Tidsstämpel: September 28, 2021

Automatisera Amazon QuickSight-användar- och grupphantering med LDAP-data för säkerhet på radnivå

Källkluster:

AWS

Källnod: 1052621

Tidsstämpel: Augusti 19, 2021

Upprätta privat anslutning mellan Amazon QuickSight och Snowflake med AWS PrivateLink

Källkluster:

AWS

Källnod: 1858655

Tidsstämpel: Juli 22, 2021

Konfigurera Amazon EMR Studio och Amazon EKS för att köra bärbara datorer med Amazon EMR på EKS

Återutgiven av Platon

Arkitekturöversikt

Anslut EMR Studio till ett virtuellt kluster och hanterad slutpunkt

Ställ in EMR på EKS och EMR Studio

Förutsättningar

Bash-skript

Förutsättningar

FÖRBEREDNING

Distribuera stacken

AWS CDK-skript

Förutsättningar

FÖRBEREDNING

Distribuera staplarna

Manuell distribution

Skapa en VPC

Skapa ett Amazon EKS-kluster

Skapa relevanta IAM-policyer, roller, IdP och SSL/TLS-certifikat

Nödvändiga installationer i Amazon EKS

Skapa EMR på EKS-relevanta delar och mappa användaren till EMR Studio

Använd EMR Studio

Städa upp

Slutsats

Om författarna

Mer från AWS

Nya funktioner från Apache Hudi 0.7.0 och 0.8.0 tillgängliga på Amazon EMR

Fråga en Teradata-databas med Amazon Athena Federated Query och gå med data i din Amazon S3-datasjö

Förenkla inkommande dataintag med dynamiska parametriserade datauppsättningar i AWS Glue DataBrew

Kom igång med Amazon Redshift Data API

Kommer januari 2022: En uppdaterad Amazon QuickSight-inloggningsupplevelse

Upprätta privat anslutning mellan Amazon QuickSight och Snowflake med AWS PrivateLink

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto