Rakenna SQL-pohjainen ETL-putki Apache Sparkilla Amazon EKS:ään

Julkaissut Platon

seuraajia: 0

Nykyään menestyneimmät ja nopeimmin kasvavat yritykset ovat yleensä tietopohjaisia organisaatioita. Tietojen hyödyntäminen on avainasemassa moniin kiireellisiin liiketoimintaongelmiin vastaamisessa; Tämä voi kuitenkin osoittautua ylivoimaiseksi ja vaikeaksi hallittavaksi tiedon lisääntyvän monimuotoisuuden, laajuuden ja monimutkaisuuden vuoksi. Yksi suosituimmista teknologioista, joita yritykset käyttävät näiden haasteiden voittamiseksi ja kasvavan tietonsa voiman hyödyntämiseksi, on Apache Spark.

Apache Spark on avoimen lähdekoodin hajautettu tietojenkäsittelykehys, joka pystyy analysoimaan suuria tietojoukkoja, jolloin yritykset voivat saada oivalluksia kaikista tiedoistaan riippumatta siitä, ovatko ne luonteeltaan jäsenneltyä, puolistrukturoitua tai strukturoimatonta.

Voit ottaa Spark-sovelluksia käyttöön joustavasti useilla tavoilla AWS-ympäristössäsi, mukaan lukien Amazonin hallinnoima Kubernetes-tarjonta Amazonin elastisten kuberneettien palvelu (Amazon EKS). Spark 2.3:n julkaisun myötä Kubernetesista tuli uusi resurssien ajoittaja (YARN:n, Mesosin ja erillisen lisäksi) Spark-työkuormien järjestämiseen ja hallintaan. Siitä on tullut yhä useammin uusien Spark-projektien uusi standardi resurssienhallinta, kuten avoimen lähdekoodin projektin suosiosta voi päätellä. Spark 3.1:n avulla Spark on Kubernetes -projekti on virallisesti tuotantovalmis ja yleisesti saatavilla. Yrityksille on saatavilla lisää tietoarkkitehtuuria ja -malleja datalähtöisten siirtymien nopeuttamiseksi. SQL-pohjaisiin tiedonhallintajärjestelmiin ja -työkaluihin tottuneiden organisaatioiden osalta moderniin tietokäytäntöön sopeutuminen Apache Sparkilla voi kuitenkin hidastaa innovaatiotahtia.

Tässä viestissä käsittelemme tätä haastetta käyttämällä avoimen lähdekoodin tietojenkäsittelykehys Arc, joka noudattaa SQL-first-suunnitteluperiaatetta. Kaari abstraktioi Apache Sparkista ja konttitekniikoista yksinkertaisuuden edistämiseksi ja tehokkuuden maksimoimiseksi.

Mikä on Arc-tietojenkäsittelykehys?

Tietoalustat suorittavat usein toistuvasti erotus-, muunnos- ja lataustöitä (ETL) saavuttaakseen samanlaiset tulokset ja tavoitteet. Tämä voi vaihdella yksinkertaisista datatoiminnoista, kuten päivämääräsarakkeen standardoinnista, monimutkaisten muutostietojen keruuprosessien (CDC) suorittamiseen tietueen historiallisten muutosten seuraamiseksi. Vaikka tulokset ovat hyvin samankaltaisia, tuottavuus ja kustannukset voivat vaihdella suuresti, jos niitä ei toteuteta asianmukaisesti ja tehokkaasti.

Arc-käsittelykehys pyrkii siihen, että datapersoonat voivat rakentaa uudelleenkäytettäviä ja tehokkaita ETL-putkia ilman, että heidän tarvitsee sukeltaa monimutkaisiin monimutkaisiin Spark-koodin kirjoittamiseen. ETL-putken kirjoittaminen alkuperäisessä Sparkissa ei välttämättä skaalaudu kovin hyvin organisaatioille, jotka eivät tunne koodin ylläpitoa, varsinkin kun liiketoiminnan vaatimukset muuttuvat usein. SQL-first-lähestymistapa tarjoaa deklaratiivisen valjastuksen idempotenttien tietoputkien rakentamiseen, jotka voidaan helposti skaalata ja upottaa jatkuvaan integrointi- ja jatkuvatoimitusprosessiisi (CI/CD).

Arc yksinkertaistaa ETL-toteutusta Sparkissa ja mahdollistaa laajemman käyttäjäjoukon yritysanalyytikoista kehittäjiin, joilla on jo SQL-taitoja. Se nopeuttaa entisestään käyttäjien kykyä kehittää tehokkaita ETL-putkistoja tuottaakseen korkeampaa liikearvoa.

Tässä viestissä osoitamme, kuinka yksinkertaista on käyttää Arcia helpottamaan CDC:tä seuraamaan lähdejärjestelmän tietomuutoksia.

Miksi käyttää SQL:ää Spark-työkuormien rakentamiseen?

Spark-sovelluksia kirjoittaessaan kehittäjät valitsevat usein pakottavan tai menettelytavan lähestymistavan, johon sisältyy laskentavaiheiden ja toteutusjärjestyksen selkeä määrittely.

Deklaratiivisessa lähestymistavassa tekijä määrittelee halutun kohdetilan kuvaamatta ohjausvirtaa. Tämän määrittää taustalla oleva moottori tai kehys, jonka tässä viestissä määrittää Spark SQL -moottori.

Tutkitaan yleistä tiedonkäyttötapausta sarakkeiden peittämiseksi taulukossa ja kuinka voimme kirjoittaa muunnoskoodimme näihin kahteen paradigmaan.

Seuraava koodi näyttää pakollisen menetelmän (PySpark):

# Step 1 – Define a dataframe with a column to be masked
df1 = spark.sql("select phone_number from customer") # Step 2 – Define a new dataframe with a new column that has masked
df2 = df1.withColumn("phone_number_masked", regexp_replace("phone_number", "[0-9]", "*")) # Step 3 – Drop the old column that is unmasked
df3 = df2.drop("phone_number")

Seuraava koodi näyttää deklaratiivisen menetelmän (Spark SQL):

SELECT regexp_replace(phone_number, '[0-9]', '*') AS phone_number_masked FROM customer

Pakollinen lähestymistapa sanelee, kuinka asiakastaulukon esitys muodostetaan peitetyllä puhelinnumerosarakkeella; kun taas deklaratiivinen lähestymistapa määrittelee vain "mitä" tai halutun kohdetilan jättäen "miten" taustalla olevan moottorin hallittavaksi.

Tämän seurauksena deklaratiivinen lähestymistapa on paljon yksinkertaisempi ja tuottaa koodin, joka on helpompi lukea. Lisäksi tässä yhteydessä se hyödyntää SQL:ää – deklaratiivista kieltä ja laajemmin hyväksyttyä ja tunnettua työkalua, jonka avulla voit helposti rakentaa tietoputkia ja saavuttaa analyyttiset tavoitteesi nopeammin.

Jos taustalla oleva ETL-tekniikka muuttuu, SQL-skripti pysyy samana niin kauan kuin liiketoimintasäännöt pysyvät muuttumattomina. Kuitenkin, jos tietojen käsittely on välttämätöntä, koodi vaatii todennäköisesti uudelleenkirjoituksen ja regressiotestauksen, esimerkiksi kun organisaatiot päivittävät Pythonin versiosta 2 3:een.

Miksi ottaa Spark käyttöön Amazon EKS:ssä?

Amazon EKS on täysin hallittu tarjous, jonka avulla voit ajaa konttisovelluksia ilman, että sinun tarvitsee asentaa tai hallita omaa Kubernetes-ohjaustasoa tai työntekijäsolmuja. Kun otat Apache Sparkin käyttöön Amazon EKS:ssä, sovellukset voivat periä Kubernetesin taustalla olevat edut, mikä parantaa yleistä joustavuutta, saatavuutta, skaalautuvuutta ja turvallisuutta:

Optimoitu resurssieristys – Amazon EKS tukee Kubernetes-nimiavaruuksia, verkkokäytäntöjä ja pods-prioriteettia työkuormien eristämiseksi. Usean vuokraajan ympäristöissä sen optimoitu resurssien allokointiominaisuus mahdollistaa eri henkilöiden, kuten IT-insinöörien, datatieteilijöiden ja yritysanalyytikoiden, keskittää huomionsa innovaatioihin ja toimituksiin. Heidän ei tarvitse huolehtia resurssien erottelusta ja turvallisuudesta.
Yksinkertaisempi Spark-klusterin hallinta – Spark-sovellukset voivat olla vuorovaikutuksessa Amazon EKS API:n kanssa Spark-klusterien konfiguroimiseksi ja luomiseksi automaattisesti Spark-lähetyspyyntösi perusteella. Amazon EKS pyörittää useita palot or säiliöt tietojenkäsittelytarpeidesi mukaisesti. Jos kytket päälle Dynaaminen resurssien jakaminen Sovelluksesi ominaisuuden ansiosta Amazon EKS:n Spark-klusteri kehittyy dynaamisesti työmäärän mukaan. Tämä yksinkertaistaa merkittävästi Spark-klusterin hallintaa.
Skaalaa Spark-sovelluksia saumattomasti ja tehokkaasti – Spark Amazon EKS:ssä noudattaa pod-keskeistä arkkitehtuurimallia. Tämä tarkoittaa, että Amazon EKS:n eristetty podd-klusteri on omistettu yhdelle Spark ETL -työlle. Joissakin tapauksissa voit laajentaa tai pienentää Spark-klusteria työkohtaisesti muutamassa sekunnissa. Piikien hallitsemiseksi paremmin esimerkiksi koneoppimismallin harjoittelun aikana pitkän ajan kuluessa Amazon EKS tarjoaa joustavan ohjauksen Klusterin automaattinen skaalaus solmutasolla ja Vaakasuora pod Autoscaler pod-tasolla. Lisäksi Sparkin skaalaus Amazon EKS:ssä AWS-veljeskunta käynnistystyyppi tarjoaa sinulle palvelimettoman ETL-vaihtoehdon vähimmällä vaivalla.
Parannettu joustavuus ja pilvituki – Kubernetes esiteltiin vuonna 2018 alkuperäisenä Spark-resurssien ajoittajana. Käyttöönoton lisääntyessä tämä projekti tuli yleisesti saataville Spark 3.1:n (2021) kanssa paremman pilvituen ohella. Tärkeä päivitys tässä jännittävässä julkaisussa on Graceful Executorin käytöstä poistaminen, mikä tekee Apache Sparkista kestävämmän Amazonin elastinen laskentapilvi (Amazon EC2) Spot Instance keskeytys. Tätä kirjoittaessa ominaisuus on käytettävissä vain Kubernetes- ja Standalone-tilassa.

Spark on Amazon EKS voi käyttää kaikkia näitä täysin hallitun Kubernetes-palvelun tarjoamia ominaisuuksia optimaalisen resurssien allokoinnin, yksinkertaisemman käyttöönoton ja toiminnan tehokkuuden parantamiseksi.

Ratkaisun yleiskatsaus

Tämän postauksen mukana tulee käyttövalmis suunnitelma, joka huolehtii automaattisesti tarvittavasta infrastruktuurista ja pyörittää Amazon EKS:ssä kaksi verkkoliittymää tukemaan interaktiivista ETL-rakennusta ja orkestrointia. Lisäksi se valvoo tietojen DevOps- ja CI/CD-käyttöönoton parhaita käytäntöjä.

Seuraava kaavio kuvaa ratkaisuarkkitehtuuria.

Arkkitehtuurissa on neljä pääkomponenttia:

Orkesterointi Amazon EKS:ssä – Ratkaisu tarjoaa erittäin kytkettävän työnkulun hallintakerroksen. Tässä viestissä käytämme Argo -työnkulut organisoida ETL-työt deklaratiivisella tavalla. Se on yhdenmukainen Amazon EKS:n vakiokäyttöönottotavan kanssa. Apache Airflow ja muut työkalut ovat myös käytettävissä.
Tietojen kuormitus Amazon EKS:ssä – Tämä edustaa työtilaa samassa Amazon EKS -klusterissa, jossa voit rakentaa, testata ja suorittaa ETL-töitä interaktiivisesti. Sitä käyttää Jupyter Notebooks, jossa on mukautettu ydin nimeltään Kaari Jupyter. Sen Git-integraatioominaisuus vahvistaa parhaita käytäntöjä CI/CD-käyttöönoton toiminnassa. Tämä tarkoittaa, että jokaisen Jupyter-esiintymään luodun muistikirjan on kirjauduttava sisään Git-tietovarastoon standardin lähde- ja versionhallintaa varten. Git-arkiston pitäisi olla ainoa totuuden lähde ETL-työkuormitukselle. Kun Jupyter-muistikirjatiedostosi (työn määritelmä) ja SQL-skriptit saapuvat Gitiin, jota seuraa an Amazonin yksinkertainen tallennuspalvelu (Amazon S3) -lataus, se suorittaa ETL:si automaattisesti tai aikataulun mukaan. Koko käyttöönottoprosessi on saumaton tahattomien inhimillisten virheiden estämiseksi.
Turvallisuus – Tämä kerros suojaa Arc-, Jupyter Docker -kuvat ja muut arkaluontoiset tiedot. The Palvelutilien IAM -roolit ominaisuus (IRSA) Amazon EKS:ssä tarjoaa token-valtuutuksen ja hienorakeisen pääsynhallinnan muihin AWS-palveluihin. Tässä ratkaisussa Amazon EKS integroituu Amazon Athena, AWS-liima, ja S3-ämpärit turvallisesti, joten sinun ei tarvitse ylläpitää pitkäikäisiä AWS-tunnistetietoja sovelluksillesi. Käytämme myös amazonin pilvikello ETL-sovelluslokien keräämiseen ja Amazon EKS:n seurantaan kontin oivalluksia
Datajärvi – Ratkaisun ulostulona datakohde on S3-ämpäri. Sinun pitäisi pystyä kyselemään tietoja suoraan Athenassa AWS Gluen tietokatalogilla varmuuskopioituna.

Edellytykset

Jotta voit suorittaa esimerkkiratkaisun paikallisessa koneessa, sinulla on oltava seuraavat edellytykset:

Python 3.6 tai uudempi.
- AWS-komentoriviliitäntä (AWS CLI) -versio 1. Käytä Windowsissa MSI -asennusohjelma. Käytä Linuxissa, macOS:ssä tai Unixissa mukana toimitettu asennusohjelma.
AWS CLI on määritetty kommunikoimaan käyttöönottotilisi palveluiden kanssa. Muussa tapauksessa aseta profiilisi valitsemalla EXPORT AWS_PROFILE= tai suorita aws configure määrittääksesi AWS-tilisi käyttöoikeudet.

Jos et halua asentaa mitään tietokoneellesi, käytä AWS CloudShell, selainpohjainen komentotulkki, jonka avulla on helppo ajaa komentosarjoja AWS CLI:n kanssa.

Lataa projekti

Kloonaa näytekoodi joko tietokoneellesi tai sinun AWS CloudShell -konsoli:

git clone https://github.com/aws-samples/sql-based-etl-on-amazon-eks.git cd sql-based-etl-on-amazon-eks

Ota infrastruktuuri käyttöön

Käyttöönottoprosessi kestää noin 30 minuuttia.

Käynnistä AWS-pilven muodostuminen mallia ratkaisun käyttöönottamiseksi. Seuraa Räätälöintiohjeet jos haluat tehdä muutoksen tai ottaa käyttöön toisella alueella.

Alue	Käynnistä malli
Yhdysvaltojen itä (N. Virginia)

Ota käyttöön oletusasetuksilla (suositus). Jos haluat käyttää omaa käyttäjätunnustasi Jupyteriin kirjautumiseen, päivitä parametri jhubuser. Jos suoritat ETL:ää omille tiedoillesi, päivitä parametri datalakebucket S3-kauhasi kanssa. Kauhan on oltava samalla alueella kuin käyttöönottoalue.

Käyttöönoton jälkeen

Suorita komentosarja komentotyökalujen asentamiseksi:

cd spark-on-eks
./deployment/post-deployment.sh

Testaa työtä Jupyterissa

Voit testata työtä Jupyterissa suorittamalla seuraavat vaiheet:

Kirjaudu sisään edellisen komentosarjatulosteen tiedoilla. Tai katso se osoitteesta Secrets Manager -konsoli.
varten Palvelimen asetukset, valitse oletuspalvelimen koko.

Noudattamalla parasta tietoturvakäytäntöä kannettavan tietokoneen istunto aikakatkaistaan, jos se on käyttämättömänä 30 minuuttia. Sinun on ehkä päivitettävä verkkoselaimesi ja kirjauduttava uudelleen sisään.

Avaa näytetyö spark-on-eks/source/example/notebook/scd2-job.ipynb muistikirjastasi.
Valitse päivityskuvake nähdäksesi tiedoston tarvittaessa.
Suorita jokainen lohko ja tarkkaile tulosta. Työ tulostaa taulukon tukemaan Hitaasti muuttuva mittatyyppi 2 (SCD2) liiketoiminnan tarpeeseen.

Data DevOpsin parhaiden käytäntöjen esittelemiseksi JupyterHub on määritetty synkronoimaan tämän projektin GitHub-repon uusin koodi. Käytännössä sinun on tallennettava kaikki muutokset lähdetietovarastoon, jotta voit ajoittaa ETL-työsi suoritettavaksi.
Suorita kysely osoitteessa Athena -konsoli nähdäksesi, onko se SCD type 2 -taulukko:

SELECT * FROM default.deltalake_contact_jhub WHERE id=12

(Valinnainen) Jos teet Athena-kyselyn ensimmäistä kertaa, määritä tuloksen sijainti seuraavasti: s3://sparkoneks-appcode<random_string>/

Lähetä työpaikka Argon kautta

Voit lähettää työtehtävän Argon kautta seuraavasti:

Tarkista yhteytesi CloudShell tai paikallisella tietokoneellasi.

kubectl get svc & argo version --short

Jos sinulla ei ole pääsyä Amazon EKS:ään tai Argo CLI:tä ei ole asennettu, suorita käyttöönoton jälkeinen komentosarja uudelleen:

Kirjaudu sisään Argo-verkkosivustolle. Se päivittyy 10 minuutin välein (mikä on konfiguroitavissa).

ARGO_URL=$(aws cloudformation describe-stacks --stack-name SparkOnEKS --query "Stacks[0].Outputs[?OutputKey=='ARGOURL'].OutputValue" --output text)
LOGIN=$(argo auth token)
echo -e "nArgo website:n$ARGO_URLn" && echo -e "Login token:n$LOGINn"

Suorita komentosarja uudelleen saadaksesi uuden kirjautumistunnuksen, jos kohtaat aikakatkaisun

Valitse sivupalkista Työnkulut-vaihtoehtokuvake nähdäksesi työn tilan.

Havainnollistaaksemme työriippuvuusominaisuutta Argo Workflowsissa jaoimme edellisen Jupyter-muistikirjan kolmeen tiedostoon, meidän tapauksessamme kolme ETL-työpaikkaa.
Lähetä sama SCD2-dataputki kolmella työllä:

# change the CFN stack name if yours is different
app_code_bucket=$(aws cloudformation describe-stacks --stack-name SparkOnEKS --query "Stacks[0].Outputs[?OutputKey=='CODEBUCKET'].OutputValue" --output text)
argo submit source/example/scd2-job-scheduler.yaml -n spark --watch -p codeBucket=$app_code_bucket

Tarkista Spark-nimitilan alta työn edistyminen ja hakemuslokit Argo-verkkosivustolta.

Tee kysely Athenen taulukosta nähdäksesi, onko sillä sama tulos kuin Jupyterin testissä aiemmin:

SELECT * FROM default.contact_snapshot WHERE id=12

Seuraava kuvakaappaus näyttää kyselyn tulokset.

Lähetä natiivi Spark-työ

Aiemmin suoritimme AWS CloudFormationin kaltaisen ETL-työn, joka määriteltiin Arcin tuottamassa Jupyter-muistikirjassa. Käytetään nyt uudelleen Arc Docker -kuvaa, joka sisältää uusimman Spark-jakelun, lähettääksemme alkuperäisen PySpark-työn, joka käsittelee noin 50 Gt dataa. Sovelluskoodi näyttää tältä:

Työn lähettäjän määrittelee spark-on-k8s-operaattori deklaratiivisella tavalla. Se noudattaa samaa ilmoitusmallia kuin muut sovellusten käyttöönottoprosessit. Kuten seuraavassa koodissa näkyy, käytämme samaa komentosyntaksia kubectl apply.

Lähetä Spark-työ tavallisena hakemuksena Amazon EKS:ssä:

# get the s3 bucket from CFN output
app_code_bucket=$(aws cloudformation describe-stacks --stack-name SparkOnEKS --query "Stacks[0].Outputs[?OutputKey=='CODEBUCKET'].OutputValue" --output text) kubectl create -n spark configmap special-config --from-literal=codeBucket=$app_code_bucket
kubectl apply -f source/example/native-spark-job-scheduler.yaml

Tarkista työn tila:

kubectl get pod -n spark # the Spark cluster is running across two AZs.
kubectl get node --label-columns=eks.amazonaws.com/capacityType,topology.kubernetes.io/zone # watch progress on SparkUI, if the job was submitted from local computer
kubectl port-forward word-count-driver 4040:4040 -n spark
# go to `localhost:4040` from your web browser

Testaa vikasietoisuutta ja joustavuutta.

Voit suorittaa itsepalautuksen yksinkertaisemmalla uudelleenyritysmekanismilla. Sparkissa tiedämme, että kuljettaja on yksi vikapiste. Jos Spark-ohjain kuolee, koko sovellus ei selviä. Työn uudelleenkäynnistyksen määrittäminen vaatii usein ylimääräistä vaivaa, jotta saadaan aikaan vikasietokyky. Se on kuitenkin paljon yksinkertaisempaa Amazon EKS:ssä vain muutaman rivin uudelleenyritysilmoituksella. Se toimii sekä erä- että suoratoistosovelluksissa.

Simuloi Spotin keskeytysskenaariota poistamalla manuaalisesti ohjainta suorittava EC2-ilmentymä:

# find the ec2 host name
kubectl describe pod word-count-driver -n spark # replace the placeholder kubectl delete node <ec2_host_name> # has the driver come back?
kubectl get pod -n spark

Poista executor exec-1, kun se on käynnissä:

kubectl get pod -n spark
exec_name=$(kubectl get pod -n spark | grep "exec-1" | awk '{print $1}')
kubectl delete -n spark pod $exec_name ––force # has it come back with a different number suffix? kubectl get pod -n spark

Pysäytä työ tai suorita uudelleen eri työmäärityksillä:

kubectl delete -f source/example/native-spark-job-scheduler.yaml # modify the scheduler file and rerun
Kubectl apply -f source/example/native-spark-job-scheduler.yaml

Puhdistaa

Vältä tulevia maksuja poistamalla luodut resurssit, jos et enää tarvitse ratkaisua.

Suorita puhdistuskomentosarja CloudFormation-pinon nimellä. Oletusnimi on SparkOnEKS:

cd sql-based-etl-on-amazon-eks/spark-on-eks
./deployment/delete_all.sh <OPTIONAL:stack_name>

Poista tarvittaessa jäljellä olevat resurssit manuaalisesti AWS CloudFormation -konsolissa.

Yhteenveto

Tämä viesti esittelee deklaratiivisen ETL-vaihtoehdon, joka perustuu SQL-keskeiseen arkkitehtuuriin, nopeuttaakseen tietojen innovointia, parantaakseen näkemykseen kuluvaa aikaa ja tukeakseen liiketoiminnan ketteryyttä lisäämällä suunnittelun tuottavuutta. Apache Sparkista ja konttitekniikoista otetun avoimen lähdekoodin tietojenkäsittelykehyksen Arc avulla voit rakentaa modernin tietoratkaisun AWS:n hallinnoimiin palveluihin yksinkertaisesti ja tehokkaasti.

Voit ottaa Spark-sovelluksia käyttöön joustavasti useilla tavoilla AWS-ympäristössäsi. Tässä viestissä osoitimme, kuinka ETL-putki otetaan käyttöön Amazon EKS:ssä. Toinen vaihtoehto on hyödyntää optimoitua Spark-ajoaikaa, joka on käytettävissä Amazonin EMR. Voit ottaa saman ratkaisun käyttöön Amazon EMR:n kautta Amazon EKS:ssä. Siirtyminen tähän käyttöönottovaihtoehtoon on vaivatonta ja yksinkertaista, eikä se vaadi sovelluksen muutosta tai regressiotestiä.

Lisälukema

Lisätietoja Apache Sparkin käyttämisestä Amazon EKS:ssä on seuraavalla sivulla:

Tietoja Tekijät

Melody Yang on AWS:n Senior Analytics Specialist Solution Architect, jolla on asiantuntemusta Big Data -tekniikoista. Hän on kokenut analytiikkajohtaja, joka työskentelee AWS-asiakkaiden kanssa tarjotakseen parhaita käytäntöjä koskevia ohjeita ja teknisiä neuvoja auttaakseen heitä onnistumaan tietojen muuntamisessa. Hänen kiinnostuksen kohteitaan ovat avoimen lähdekoodin viitekehykset ja automaatio, tietotekniikka ja DataOps.

Avnish Jain on AWS:n Analyticsin erikoisratkaisuarkkitehti, jolla on kokemusta skaalautuvien, nykyaikaisten tietoalustojen suunnittelusta ja toteuttamisesta pilvessä suurille yrityksille. Hän on intohimoinen auttamaan asiakkaita rakentamaan tehokkaita ja kestäviä datapohjaisia ratkaisuja ja toteuttamaan data- ja analytiikkapotentiaalinsa.

Shiva Achari on AWS:n vanhempi datalaboratorion arkkitehti. Hän auttaa AWS-asiakkaita suunnittelemaan ja rakentamaan data- ja analytiikkaprototyyppejä AWS Data Lab -yhteistyön kautta. Hänellä on yli 14 vuoden kokemus työskentelystä yritysasiakkaiden ja startup-yritysten kanssa ensisijaisesti Data- ja Big Data Analytics -tilassa.