In del 2 i den här serien diskuterade vi hur man aktiverar AWS-lim jobbobservabilitetsmått och integrera dem med Grafana för övervakning i realtid. Grafana tillhandahåller kraftfulla anpassningsbara instrumentpaneler för att se pipelinens hälsa. Men för att analysera trender över tid, aggregera från olika dimensioner och dela insikter över hela organisationen, ett specialbyggt Business Intelligence-verktyg (BI) som Amazon QuickSight kan vara mer effektivt för ditt företag. QuickSight gör det enkelt för företagsanvändare att visualisera data i interaktiva instrumentpaneler och rapporter.
I det här inlägget utforskar vi hur du ansluter QuickSight till amazoncloudwatch mätvärden och bygg grafer för att upptäcka trender i AWS Glue-observationsmått. Genom att analysera historiska mönster kan du optimera prestanda, identifiera problem proaktivt och förbättra planeringen. Vi går igenom intag av CloudWatch-mätvärden i QuickSight med hjälp av en CloudWatch-statistikström och QuickSight SPICE. Med denna integration kan du använda linjediagram, stapeldiagram och andra graftyper för att avslöja dagliga, veckovisa och månatliga mönster. QuickSight låter dig utföra aggregerade beräkningar på mätvärden för djupare analys. Du kan dela upp data efter olika dimensioner som jobbnamn, se avvikelser och dela rapporter på ett säkert sätt i din organisation. Med dessa insikter har team synlighet för att göra dataintegrationspipelines mer effektiva.
Lösningsöversikt
Följande arkitekturdiagram illustrerar arbetsflödet för att implementera lösningen.
Arbetsflödet innehåller följande steg:
- AWS Glue-jobb sänder ut observerbarhetsmått till CloudWatch-mätvärden.
- CloudWatch strömmar metrisk data genom en metrisk ström till Amazon Data Firehose.
- Data Firehose använder en AWS Lambda funktion för att omvandla data och mata in de transformerade posterna till en Amazon enkel lagringstjänst (Amazon S3) hink.
- En AWS Glue-crawler skannar data på S3-skopan och fyller i tabellmetadata i AWS Glue Data Catalog.
- QuickSight körs med jämna mellanrum Amazonas Athena frågor för att ladda frågeresultat till SPICE och sedan visualisera de senaste metriska data.
Alla resurser definieras i ett urval AWS Cloud Development Kit (AWS CDK) mall. Du kan distribuera end-to-end-lösningen för att visualisera och analysera trender för observerbarhetsmåtten.
Exempel på AWS CDK-mall
Det här inlägget tillhandahåller ett exempel på AWS CDK-mall för en instrumentpanel som använder AWS Glue observerbarhetsmått.
Vanligtvis har du flera konton för att hantera och köra resurser för din datapipeline.
I den här mallen utgår vi från följande konton:
- Övervakningskonto – Detta är värd för den centrala S3-hinken, centrala datakatalogen och QuickSight-relaterade resurser
- Källkonto – Detta är värd för individuella datapipelineresurser på AWS Glue och resurserna för att skicka mätvärden till övervakningskontot
Mallen fungerar även när övervakningskontot och källkontot är samma.
Denna exempelmall består av fyra staplar:
- Amazon S3 stack – Detta försörjer S3-skopan
- Datakatalogstack – Detta tillhandahåller AWS Glue-databasen, tabellen och sökroboten
- QuickSight stack – Detta tillhandahåller QuickSights datakälla, datauppsättning och analys
- Mätvärdesavsändarstack – Detta tillhandahåller CloudWatch metrisk ström, Firehose leveransström och Lambda-funktion för transformation
Förutsättningar
Du bör ha följande förutsättningar:
- Python 3.9 eller senare
- AWS står för övervakningskontot och källkontot
- An AWS namngiven profil för övervakningskontot och källkontot
- Smakämnen AWS CDK Toolkit 2.87.0 eller senare
Initiera CDK-projektet
Utför följande steg för att initiera projektet:
- Klona cdk mall till din arbetsplats:
- Skapa en Python virtuell miljö specifikt för projektet på klientdatorn:
Vi använder en virtuell miljö för att isolera Python-miljön för detta projekt och inte installera programvara globalt.
- Aktivera den virtuella miljön enligt ditt operativsystem:
- På MacOS och Linux, använd följande kod:
- På en Windows-plattform använder du följande kod:
Efter detta steg körs de efterföljande stegen inom gränserna för den virtuella miljön på klientdatorn och interagerar med AWS-kontot efter behov.
- Installera de nödvändiga beroenden som beskrivs i requirements.txt till den virtuella miljön:
- Redigera konfigurationsfilen
default-config.yaml
baserat på dina miljöer (ersätt varje konto-ID med ditt eget.
Starta dina AWS-miljöer
Kör följande kommandon för att starta upp dina AWS-miljöer:
- I övervakningskontot, ange ditt övervakningskontonummer, AWS-region och övervakningsprofil:
- I källkontot anger du ditt källkontonummer, region och källprofil:x
När du bara använder ett konto för alla miljöer kan du bara köracdk bootstrap
kommando en gång.
Distribuera dina AWS-resurser
Kör följande kommandon för att distribuera dina AWS-resurser:
- Kör följande kommando med övervakningskontot för att distribuera resurser som definieras i AWS CDK-mallen:
- Kör följande kommando med hjälp av källkontot för att distribuera resurser som definierats i AWS CDK-mallen:
Konfigurera QuickSight-behörigheter
Inledningsvis är de nya QuickSight-resurserna inklusive datamängden och analysen som skapats av AWS CDK-mallen inte synliga för dig eftersom det inte finns några QuickSight-behörigheter konfigurerade ännu.
Gör följande steg för att göra datamängden och analysen synlig för dig:
- På QuickSight-konsolen, navigera till användarmenyn och välj Hantera QuickSight.
- Välj i navigeringsfönstret Hantera tillgångar.
- Enligt Bläddra bland tillgångarväljer Analys.
- Sök efter GlueObservabilityAnalysis och välj den.
- Välja AKTIE.
- För Användare eller grupp, välj din användare och välj sedan DELA (1).
- Vänta tills delningen är klar och välj sedan GJORT.
- På Hantera tillgångar sida, välj dataset.
- Sök efter observability_demo.metrics_data och välj det.
- Välja AKTIE.
- För Användare eller grupp, välj din användare och välj sedan DELA (1).
- Vänta tills delningen är klar och välj sedan GJORT.
Utforska standard QuickSight-analysen
Nu är din QuickSight-analys och datauppsättning synliga för dig. Du kan gå tillbaka till QuickSight-konsolen och välja GlueObservabilityAnalysis under Analys. Följande skärmdump visar din instrumentpanel.
Provanalysen har två flikar: Övervakning och Insikter. Som standard är Övervakning fliken har följande diagram:
- [Tillförlitlighet] Uppdelning av Jobbkörningsfel
- [Tillförlitlighet] Jobbkörningsfel (totalt)
- [Prestanda] Skewness Job
- [Prestanda] Skevhetsjobb per jobb
- [Resursutnyttjande] Arbetaranvändning
- [Resursutnyttjande] Arbetaranvändning per jobb
- [Throughput] BytesRead, RecordsRead, FilesRead, PartitionRead (Avg)
- [Throughput] BytesWritten, RecordsWritten, FilesWritten (Avg)
- [Resursutnyttjande disk tillgänglig GB (min)
- [Resursutnyttjande Max disk använd % (max)
- [Driver OOM] OOM-felräkning
- [Driver OOM] Max högminne använt % (max)
- [Executor OOM] OOM-felräkning
- [Executor OOM] Max Heap-minne använt % (max)
Som standard Insikter fliken har följande insikter:
- Lägst rankad arbetaranvändning
- Topprankade skevhetsjobb
- Prognos för arbetaranvändning
- Top Mover readBytes
Du kan lägga till alla nya grafdiagram eller insikter med hjälp av observerbarhetsmått baserat på dina krav.
Publicera QuickSight-instrumentpanelen
När analysen är klar utför du följande steg för att publicera instrumentpanelen:
- Välja PUBLICERA.
- Välja Publicera ny instrumentpanel som, och ange
GlueObservabilityDashboard
. - Välja Publicera instrumentpanelen.
Sedan kan du visa och dela instrumentpanelen.
Visualisera och analysera med AWS Glue job observerbarhetsmått
Låt oss använda instrumentpanelen för att göra AWS Glue-användningen mer effektiv.
Om man tittar på Skevhetsjobb per jobb visualisering, det var en topp den 1 november 2023. Skevhetsmåtten för jobbdemon i flera steg visade 9.53, vilket är betydligt högre än andra.
Låt oss gå ner i detaljer. Du kan välja Fjärrkontroll, och ändra filtervillkor baserat på datum och tid, region, AWS-konto-ID, AWS-limjobbnamn, jobbkörnings-ID och källan och källan för datalagren. Låt oss nu filtrera med jobbnamnet multistage-demo.
Den filtrerade Arbetaranvändning per jobb visualisering visar 0.5 och dess lägsta värde var 0.16. Det verkar som att det finns ett utrymme för förbättring av resursutnyttjandet. Den här observationen guidar dig till att aktivera automatisk skalning för det här jobbet för att öka arbetsanvändningen.
Städa upp
Kör följande kommandon för att rensa upp dina AWS-resurser:
- Kör följande kommando med övervakningskontot för att rensa resurser:
Kör följande kommando med källkontot för att rensa resurser:
Överväganden
QuickSight-integrationen är designad för analys och bättre flexibilitet. Du kan sammanställa mätvärden baserat på alla fält. När du hanterar många jobb samtidigt hjälper QuickSight-insikter dig att identifiera problematiska jobb.
QuickSight-integration uppnås med fler resurser i dina miljöer. Övervakningskontot behöver en AWS Glue-databas, tabell, sökrobot och S3-hink, och möjligheten att köra Athena-frågor för att visualisera mätvärden i QuickSight. Varje källkonto måste ha en metrisk ström och en Firehose-leveransström. Detta kan medföra extra kostnader.
Alla nödvändiga resurser är mallade i AWS CDK.
Slutsats
I det här inlägget undersökte vi hur man visualiserar och analyserar AWS Glue-observerbarhetsstatistik på QuickSight med hjälp av CloudWatch-mätningsströmmar och SPICE. Genom att koppla de nya observerbarhetsmåtten till interaktiva QuickSight-instrumentpaneler kan du upptäcka dagliga, veckovisa och månatliga mönster för att optimera användningen av AWS Glue-jobb. QuickSights rika visualiseringsfunktioner låter dig analysera trender i mätvärden som arbetaranvändning, felkategorier, genomströmning och mer. Att samla statistik och dela upp data efter olika dimensioner som jobbnamn kan ge djupare insikter.
Exempelinstrumentpanelen visade statistik över tid, toppfel och jämförande jobbanalyser. Dessa visualiseringar och rapporter kan säkert delas med team över hela organisationen. Med datadrivna insikter om AWS Glues observerbarhetsmått kan du få djupare insikter om prestandaflaskhalsar, vanliga fel och mer.
Om författarna
Noritaka Sekiyama är en främsta Big Data Architect i AWS Glue-teamet. Han är ansvarig för att bygga mjukvaruartefakter för att hjälpa kunder. På fritiden tycker han om att cykla med sin nya landsvägscykel.
Chuhan Liu är en mjukvaruutvecklingsingenjör i AWS Glue-teamet. Han brinner för att bygga skalbara distribuerade system för big data-bearbetning, analys och hantering. På fritiden tycker han om att spela tennis.
XiaoRun Yu är en mjukvaruutvecklingsingenjör i AWS Glue-teamet. Han arbetar med att bygga nya funktioner för AWS Glue för att hjälpa kunder. Utanför jobbet tycker Xiaorun om att utforska nya platser i Bay Area.
Sean Ma är en huvudproduktchef i AWS Glue-teamet. Han har mer än 18 års erfarenhet av att förnya och leverera företagsprodukter som låser upp kraften med data för användarna. Utanför jobbet gillar Sean dykning och collegefotboll.
Mohit Saxena är Senior Software Development Manager i AWS Glue-teamet. Hans team fokuserar på att bygga distribuerade system för att möjliggöra för kunder med interaktiva och enkla att använda gränssnitt för att effektivt hantera och transformera petabyte data sömlöst över datasjöar på Amazon S3, databaser och datalager i molnet.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/big-data/enhance-monitoring-and-debugging-for-aws-glue-jobs-using-new-job-observability-metrics-part-3-visualization-and-trend-analysis-using-amazon-quicksight/
- : har
- :är
- :inte
- $UPP
- 1
- 10
- 100
- 130
- 16
- 2%
- 2023
- 300
- 4
- 42
- 425
- 5
- 60
- 7
- 8
- 87
- 9
- a
- förmåga
- Om Oss
- Enligt
- Konto
- konton
- uppnås
- tvärs
- lägga till
- Annat
- aggregat
- aggregerande
- Alla
- tillåter
- tillåter
- amason
- Amazon QuickSight
- Amazon Web Services
- an
- analys
- analytics
- analysera
- analys
- och
- vilken som helst
- arkitektur
- ÄR
- OMRÅDE
- AS
- Tillgångar
- utgå ifrån
- At
- bil
- tillgänglig
- AVG
- AWS
- AWS-lim
- bar
- baserat
- bukt
- BE
- därför att
- Bättre
- Stor
- Stora data
- Bootstrap
- flaskhals
- gräns
- SLUTRESULTAT
- Byggnad
- företag
- business intelligence
- by
- beräkningar
- KAN
- kapacitet
- katalog
- kategorier
- CD
- centrala
- byta
- Diagram
- Välja
- rena
- klient
- cloud
- koda
- College
- COM
- Gemensam
- fullborda
- villkor
- konfiguration
- konfigurerad
- Kontakta
- Anslutning
- består
- Konsol
- Kostar
- sökrobot
- skapas
- Kunder
- anpassningsbar
- dagligen
- instrumentbräda
- instrumentpaneler
- datum
- dataintegration
- databehandling
- data driven
- Databas
- databaser
- Datum
- som handlar om
- djupare
- Standard
- definierade
- leverera
- leverans
- beroenden
- distribuera
- beskriven
- utformade
- förstöra
- detaljer
- Utveckling
- Diagrammet
- olika
- dimensioner
- diskuteras
- distribueras
- distribuerade system
- dykning
- ner
- chaufför
- varje
- Effektiv
- effektiv
- effektivt
- möjliggöra
- början till slut
- ingenjör
- förbättra
- ange
- Företag
- Miljö
- miljöer
- fel
- fel
- Eter (ETH)
- Även
- utforska
- utforskas
- Utforska
- falsk
- Funktioner
- Fält
- Fil
- filtrera
- Flexibilitet
- fokuserar
- efter
- fotboll
- För
- fyra
- från
- fungera
- gå
- Globalt
- diagram
- grafer
- Guider
- Har
- he
- Hälsa
- hjälpa
- högre
- hans
- historisk
- värdar
- Hur ser din drömresa ut
- How To
- Men
- html
- http
- HTTPS
- IAM
- ID
- identifiera
- illustrerar
- genomföra
- förbättra
- förbättring
- in
- innefattar
- Inklusive
- Öka
- individuellt
- nyskapande
- insikter
- installera
- integrera
- integrering
- Intelligens
- interagera
- interaktiva
- gränssnitt
- in
- problem
- IT
- DESS
- Jobb
- Lediga jobb
- jpg
- bara
- sjöar
- senaste
- Lets
- tycka om
- linje
- linux
- läsa in
- Maskinen
- Mac OS
- göra
- GÖR
- hantera
- ledning
- chef
- många
- max
- Maj..
- Minne
- Meny
- metadata
- metriska
- Metrics
- min
- minsta
- övervakning
- månad
- mer
- mer effektiv
- multipel
- namn
- Som heter
- Navigera
- Navigering
- behövs
- behov
- Nya
- Nya funktioner
- Nej
- November
- nu
- antal
- observationen
- of
- on
- gång
- ONE
- endast
- Optimera
- or
- beställa
- organisation
- OS
- Övriga
- Övrigt
- utanför
- över
- egen
- panelen
- del
- brinner
- mönster
- för
- utföra
- prestanda
- behörigheter
- rörledning
- platser
- planering
- plattform
- plato
- Platon Data Intelligence
- PlatonData
- i
- Inlägg
- kraft
- den mäktigaste
- förutsättningar
- Principal
- bearbetning
- Produkt
- produktchef
- Produkter
- Profil
- projektet
- ge
- ger
- publicera
- Python
- sökfrågor
- fråga
- rankad
- redo
- realtid
- post
- register
- region
- tillförlitlighet
- ersätta
- Rapport
- Obligatorisk
- Krav
- resurs
- Resurser
- ansvarig
- Resultat
- avkastning
- Rik
- väg
- Rum
- Körning
- kör
- Samma
- prov
- skalbar
- skalning
- skannar
- sömlöst
- sean
- säkert
- se
- verkar
- välj
- sända
- avsändare
- senior
- Serier
- Tjänster
- Dela
- delas
- skall
- visade
- Visar
- signifikant
- Enkelt
- Skiva
- Mjukvara
- mjukvaruutveckling
- lösning
- Källa
- specifik
- krydda
- spik
- Stacks
- Steg
- Steg
- förvaring
- lagrar
- okomplicerad
- ström
- strömmar
- senare
- sådana
- System
- bord
- grupp
- lag
- mall
- tennis
- än
- den där
- Smakämnen
- källan
- Dem
- sedan
- Där.
- Dessa
- detta
- Genom
- genomströmning
- tid
- till
- verktyg
- topp
- Totalt
- spår
- track record
- Förvandla
- transformerad
- Trend
- trend analys
- Trender
- sann
- två
- typer
- avslöja
- under
- låsa
- Användning
- användning
- Begagnade
- Användare
- användare
- användningar
- med hjälp av
- utnyttjande
- värde
- utsikt
- Virtuell
- synlighet
- synlig
- visualisering
- visualisera
- gå
- var
- we
- webb
- webbservice
- vecka
- när
- som
- fönster
- med
- inom
- Arbete
- arbetstagaren
- arbetsflöde
- arbetssätt
- Arbetsplats
- fungerar
- X
- år
- ännu
- dig
- Din
- zephyrnet