Hva er nytt i Amazon Redshift – 2021, et år i gjennomgang

Publisert av Platon

Følgere: 0

Amazon RedShift er det valgte skydatavarehuset for titusenvis av kunder som bruker den til å analysere exabyte med data for å få forretningsinnsikt. Kunder har bedt om flere funksjoner i Redshift for å gjøre det enklere, raskere og sikkert å lagre, behandle og analysere alle dataene deres. Vi annonserte Redshift i 2012 som det første skydatavarehuset for å fjerne kompleksiteten rundt klargjøring, administrering og skalering av datavarehus. Siden den gang har vi lansert funksjoner som Concurrency scaling, Spectrum og RA3-noder for å hjelpe kunder med å analysere alle dataene deres og støtte økende analysekrav på tvers av alle brukere i organisasjonen. Vi fortsetter å innovere med Redshift på vegne av kundene våre og lanserte mer enn 50 viktige funksjoner i 2021. Dette innlegget dekker noen av disse funksjonene, inkludert brukstilfeller og fordeler.

Vi jobber baklengs fra kundenes krav, og investerer i Redshift for å få frem nye muligheter på tre hovedområder:

Enkel analyse for alle
Analyser alle dataene dine
Ytelse i alle skalaer

Kunder fortalte oss at datavarehusbrukerne i organisasjonene deres utvider seg fra administratorer, utviklere, analytikere og dataforskere til Line of Business (LoB)-brukere, så vi fortsetter å investere for å gjøre Redshift enklere å bruke for alle. Kunder fortalte oss også at de ønsker å frigjøre seg fra datasiloer og få tilgang til data på tvers av datainnsjøer, databaser og datavarehus og analysere disse dataene med SQL og maskinlæring (ML). Så vi fortsetter å investere i å la kundene analysere alle dataene deres. Og til slutt fortalte kundene oss at de vil ha den beste prisytelsen for analyser i alle skalaer fra Terabyte til Petabyte med data. Så vi fortsetter å bringe ut nye muligheter for ytelse i alle skalaer. La oss dykke ned i hver av disse pilarene og dekke nøkkelfunksjonene som vi lanserte i 2021.

Amazon Redshift nøkkelinnovasjoner

Redshift gir enkel analyse for alle

Enkel analyse for alle krever en enklere å komme i gang, automatisert administrasjon og visuelle brukergrensesnitt som gjør det enklere, enklere og raskere for både tekniske og ikke-tekniske brukere å raskt komme i gang, betjene og analysere data i et datavarehus . Vi lanserte nye funksjoner som Redshift Serverless (i forhåndsvisning), Query Editor V2 og automatiserte materialiserte visninger (i forhåndsvisning), samt forbedret Data API i 2021 for å gjøre det enklere for kunder å kjøre datavarehusene sine.

Redshift Serverless (i forhåndsvisning) gjør det enkelt å kjøre og skalere analyser på sekunder uten å måtte klargjøre og administrere datavarehusklynger. Det serverløse alternativet lar alle brukere, inkludert dataanalytikere, utviklere, forretningsbrukere og dataforskere bruke Redshift for å få innsikt fra data på sekunder ved å laste inn og spørre data inn i datavarehuset. Kunder kan starte et datavarehus og begynne å analysere dataene med Redshift Serverless-alternativet med bare noen få klikk i AWS-administrasjonskonsoll. Det er ikke nødvendig å velge nodetyper, nodeantall eller andre konfigurasjoner. Kunder kan dra nytte av forhåndslastede prøvedatasett sammen med prøvespørringer for å sette i gang analyse umiddelbart. De kan lage databaser, skjemaer, tabeller og laste inn sine egne data fra skrivebordet, Amazon Simple Storage Service (S3), via Amazon Redshift-datadelinger, eller gjenopprett et eksisterende Amazon Redshift-klargjort klyngeøyeblikksbilde. De kan også direkte spørre data i åpne formater, som Parquet eller ORC, i deres Amazon S3-datainnsjøer, samt data i deres operasjonelle databaser, som f.eks. Amazonas Aurora og Amazon RDS. Kunder betaler kun for det de bruker, og de kan administrere kostnadene sine med detaljerte kostnadskontroller.

Redshift Query Editor V2 er et nettbasert verktøy for dataanalytikere, dataforskere og databaseutviklere for å utforske, analysere og samarbeide om data i Redshift-datavarehus og datainnsjø. Kunder kan bruke Query Editors visuelle grensesnitt til å lage og bla gjennom skjemaer og tabeller, laste inn data, skrive SQL-spørringer og lagrede prosedyrer og visualisere søkeresultater med diagrammer. De kan dele og samarbeide om spørringer og analyser, samt spore endringer med innebygd versjonskontroll. Query Editor V2 støtter også SQL notatbøker (i forhåndsvisning), som gir et nytt Notebook-grensesnitt som lar brukere som dataanalytikere og dataforskere skrive spørringer, organisere flere SQL-spørringer og merknader på ett enkelt dokument og samarbeide med teammedlemmene deres ved å dele notatbøker.

Amazon Redshift Query Editor V2

Kunder har lenge brukt Amazon Redshift materialiserte synspunkter (MV) for forhåndsberegnet resultatsett, basert på en SQL-spørring over én eller flere basistabeller for å forbedre spørringsytelsen, spesielt for ofte brukte spørringer som de i dashbord og rapporter. I 2021 lanserte vi Automatisert materialisert visning (AutoMV) i forhåndsvisning for å forbedre ytelsen til spørringer (redusere den totale utførelsestiden) uten brukerinnsats ved automatisk å opprette og vedlikeholde materialiserte visninger. Kunder fortalte oss at mens MV-er tilbyr betydelige ytelsesfordeler, krever det kunnskap, tid og innsats å analysere skjemaet, dataene og arbeidsmengden for å finne ut hvilke søk som kan dra nytte av å ha en MV eller hvilke MV-er som ikke lenger er fordelaktige og bør droppes. AutoMV lar Redshift kontinuerlig overvåke klyngen for å identifisere kandidat-MVer og evaluere fordelene kontra kostnadene. Det skaper MV-er som har høye nytte-til-kostnad-forhold, samtidig som den sikrer at eksisterende arbeidsbelastninger ikke påvirkes negativt av denne prosessen. AutoMV overvåker systemet kontinuerlig og vil slippe MV-er som ikke lenger er fordelaktige. Alle disse er transparente for brukere og applikasjoner. Applikasjoner som dashbord drar nytte av uten noen kodeendring takket være automatisk omskriving av spørringer, som lar eksisterende søk dra nytte av MV-er selv når det ikke er eksplisitt referert. Kunder kan også sette MV-ene til autorefresh slik at MV-er alltid har oppdaterte data for ekstra bekvemmelighet.

Kunder har også bedt oss om å forenkle og automatisere vedlikeholdsoppgaver for datavarehus, for eksempel skjema- eller tabelldesign, slik at de kan få optimal ytelse ut av klynger. I løpet av de siste årene har vi investert mye for å automatisere disse vedlikeholdsoppgavene. For eksempel velger Automatic Table Optimization (ATO) de beste sorterings- og distribusjonsnøklene for å bestemme den optimale fysiske utformingen av data for å maksimere ytelsen. Vi har utvidet ATO for å endre kolonnekomprimeringskodinger for å oppnå høy ytelse og redusere lagringsutnyttelsen. Vi har også introdusert ulike funksjoner, som automatisk vakuumsletting og automatisk analyse, i løpet av de siste årene for å sikre at kundedatavarehus fortsetter å fungere med topp ytelse.

Data API, som ble lansert i 2020, har også sett store forbedringer, som kjøring av spørringer med flere setninger, støtte for parametere for å utvikle gjenbrukbar kode, og tilgjengelighet i flere regioner i 2021 for å gjøre det enklere for kunder å programmere tilgang til data i Redshift. Data API lar Redshift gjøre det mulig for kunder å smertefritt få tilgang til data med alle typer tradisjonelle, skybaserte og containeriserte, serverløse nettjenestebaserte applikasjoner og hendelsesdrevne applikasjoner. Det forenkler datatilgang, inntak og utgang fra programmeringsspråk og plattformer som støttes av AWS SDK, som Python, Go, Java, Node.js, PHP, Ruby og C++. Data API eliminerer behovet for å konfigurere drivere og administrere databasetilkoblinger. I stedet kan kunder kjøre SQL-kommandoer til en Amazon Redshift-klynge ved ganske enkelt å kalle et sikret API-endepunkt levert av Data API. Data API tar seg av administrasjon av databasetilkoblinger og buffering av data. Data API er asynkront, så resultatene kan hentes senere og lagres i 24 timer.

Til slutt i vår enkle analyse for alle-pilar lanserte vi i 2021 Grafana Redshift Plugin for å hjelpe kundene med å få en dypere forståelse av klyngens ytelse. Grafana er et populært åpen kildekodeverktøy for å kjøre analyse- og overvåkingssystemer på nettet. Grafana Redshift Plugin lar kundene spørre systemtabeller og visninger for det mest komplette settet med operasjonelle beregninger på deres Redshift-klynge. Plugin er tilgjengelig i Open Source Grafana-depotet, så vel som i vår Amazon Managed Grafana-tjeneste. Vi publiserte også et standard, grundig operasjonelt dashbord for å dra nytte av denne funksjonen.

Redshift gjør det mulig for kunder å analysere alle dataene deres

Redshift gir kundene det beste fra både datainnsjøer og spesialbygde datalagre, som databaser og datavarehus. Den gjør det mulig for kunder å lagre alle datamengder, til lave kostnader, og i åpne, standardbaserte dataformater som parkett og JSON i datainnsjøer, og kjøre SQL-spørringer mot det uten lasting eller transformasjoner. Videre lar den kunder kjøre komplekse analytiske spørringer med høy ytelse mot terabyte til petabyte med strukturerte og semistrukturerte data, ved å bruke sofistikert spørringsoptimalisering, kolonnelagring på høyytelseslagring og massivt parallell kjøring av spørringer. Redshift lar kundene få tilgang til live data fra transaksjonsdatabasene som en del av deres business intelligence (BI) og rapporteringsapplikasjoner for å muliggjøre operasjonell analyse. Kunder kan bryte ned datasiloer ved sømløst å søke etter data i datainnsjøene, datavarehusene og databasene; gi teamene deres mulighet til å kjøre analyser og ML ved å bruke deres foretrukne verktøy eller teknikk; og administrere hvem som har tilgang til data med de riktige sikkerhets- og datastyringskontrollene. Vi lanserte nye funksjoner i 2021, som datadeling, AWS Data Exchange-integrasjon og Redshift ML, for å gjøre det enklere for kundene å analysere alle dataene deres.

Amazon Redshift datadeling lar kundene utvide brukervennligheten, ytelsen og kostnadsfordelene som Amazon Redshift tilbyr i en enkelt klynge til multi-cluster-distribusjoner samtidig som de kan dele data. Det muliggjør umiddelbar, detaljert og rask datatilgang på tvers av Amazon Redshift-klynger uten behov for å kopiere eller flytte rundt på data. Datadeling gir direkte tilgang til data slik at brukerne dine alltid ser den mest oppdaterte og konsistente informasjonen når den oppdateres i datavarehuset. Kunder kan trygt dele live data med Amazon Redshift-klynger i samme eller forskjellige AWS-kontoer innenfor samme region eller på tvers av regioner. Datadeling har flere ytelsesforbedringer, inkludert resultatbufring og samtidighetsskalering, som lar kunder støtte et bredere sett med analyseapplikasjoner og møte kritiske ytelses-SLAer når de spør etter delte data. Kunder kan bruke datadeling for brukstilfeller som arbeidsbelastningsisolering og tilby belastning, samt sørge for sikkert og styrt samarbeid innenfor og på tvers av team og eksterne parter.

Kunder ba oss også hjelpe dem med interne eller eksterne datamarkedsplasser slik at de kan muliggjøre brukstilfeller som data som en tjeneste og ombord 3^rd-partidata. Vi lanserte den offentlige forhåndsvisningen av AWS Data Exchange for Amazon Redshift, en ny funksjon som gjør det mulig for kunder å finne og abonnere på tredjepartsdata i AWS datautveksling at de kan spørre i et Amazon Redshift-datavarehus på få minutter. Dataleverandører kan liste opp og tilby produkter som inneholder Amazon Redshift-datasett i AWS Data Exchange-katalogen, og gir abonnenter direkte, skrivebeskyttet tilgang til dataene som er lagret i Amazon Redshift. Denne funksjonen gir kunder mulighet til raskt å spørre, analysere og bygge applikasjoner med disse tredjepartsdatasettene. AWS Data Exchange for Amazon Redshift lar kunder kombinere tredjepartsdata funnet på AWS Data Exchange med deres egne førstepartsdata i Amazon Redshift-skydatavarehuset deres, uten at ETL kreves. Siden kunder forespør direkte leverandørdatavarehus, kan de være sikre på at de bruker de nyeste dataene som tilbys. I tillegg er rettighet, fakturering og betalingshåndtering automatisert: tilgang til Amazon Redshift-data gis når et dataabonnement starter og fjernes når det avsluttes, fakturaer genereres automatisk, og betalinger samles inn og utbetales automatisk gjennom AWS Marketplace.

Kunder ba også om vår hjelp til å gjøre det enkelt å trene og distribuere ML-modeller som prediksjon, naturlig språkbehandling, objektdeteksjon og bildeklassifisering direkte på toppen av dataene i spesialbygde datalagre uten å måtte utføre kompleks databevegelse eller lære nye verktøy. Vi lanserte Rødforskyvning ML tidligere i år for å gjøre det mulig for kunder å lage, trene og distribuere ML-modeller ved hjelp av kjente SQL-kommandoer. Amazon Redshift ML lar kundene utnytte Amazon SageMaker, en fullstendig administrert ML-tjeneste, uten å flytte dataene eller lære nye ferdigheter. Videre lar Amazon Redshift ML drevet av Amazon SageMaker kunder bruke SQL-setninger til å lage og trene ML-modeller fra dataene deres i Amazon Redshift, og deretter bruke disse modellene for brukstilfeller som churn-prediksjon og svindelrisikoscoring direkte i spørringene og rapportene deres. Amazon Redshift ML oppdager automatisk den beste modellen og justerer den basert på treningsdata som brukes Amazon SageMaker Autopilot. SageMaker Autopilot velger mellom regresjons-, binær- eller multiklasseklassifiseringsmodeller. Alternativt kan kunder velge en spesifikk modelltype som Xtreme Gradient Boosted tree (XGBoost) eller multilayer perceptron (MLP), en problemtype som regresjon eller klassifisering, og preprosessorer eller hyperparametre. Amazon Redshift ML bruker kundeparametere til å bygge, trene og distribuere modellen i Amazon Redshift-datavarehuset. Kunder kan få spådommer fra disse trente modellene ved å bruke SQL-spørringer som om de påkaller en brukerdefinert funksjon (UDF), og dra nytte av alle fordelene med Amazon Redshift, inkludert massivt parallelle prosesseringsmuligheter. Kunder kan også importere sine ferdigtrente SageMaker Autopilot, XGBoost eller MLP-modeller til Amazon Redshift-klyngen for lokal slutning. Redshift ML støtter både overvåket og uovervåket ML for avanserte analytiske brukstilfeller som spenner fra prognoser til personalisering.

Kunder ønsker å kombinere live data fra operasjonelle databaser med dataene i Amazon Redshift datavarehus og dataene i Amazon S3 datainnsjømiljø for å få enhetlige analysevisninger på tvers av alle dataene i bedriften. Vi lanserte Amazon Redshift federated spørring for å la kunder inkludere live data fra transaksjonsdatabasene som en del av deres BI og rapporteringsapplikasjoner for å muliggjøre operasjonell analyse. Den intelligente optimizeren i Amazon Redshift skyver ned og distribuerer en del av beregningen direkte inn i de eksterne operasjonelle databasene for å øke ytelsen ved å redusere data som flyttes over nettverket. Amazon Redshift kompletterer påfølgende utførelse av spørringen ved å utnytte dens massivt parallelle prosesseringsevne for ytterligere hastighet. Forent spørring gjør det også enklere å innta data i Amazon Redshift ved å la kunder spørre direkte i operasjonelle databaser, bruke transformasjoner på farten og laste inn data i måltabellene uten å kreve komplekse ETL-rørledninger. I 2021 la vi til støtte for Amazon Aurora MySQL og Amazon RDS for MySQL-databaser i tillegg til de eksisterende Amazon Aurora PostgreSQL- og Amazon RDS for PostgreSQL-databasene for federated query for å gjøre det mulig for kunder å få tilgang til flere datakilder for rikere analyser.

Til slutt i vår analyse av all datapilaren i 2021, la vi til datatyper som SUPER, GEOGRAPHY og VARBYTE for å gjøre det mulig for kunder å lagre semistrukturerte data naturlig i Redshift-datavarehuset slik at de kan analysere alle dataene deres i stor skala og med ytelse. De SUPER datatype lar kunder innta og lagre JSON og semi-strukturerte data i deres Amazon Redshift-datavarehus. Amazon Redshift inkluderer også støtte for PartiQL for SQL-kompatibel tilgang til relasjonelle, semistrukturerte og nestede data. Ved å bruke SUPER-datatypen og PartiQL i Amazon Redshift kan kunder utføre avanserte analyser som kombinerer klassiske strukturerte SQL-data (som streng, numerisk og tidsstempel) med semistrukturerte SUPER-data (som JSON) med overlegen ytelse, fleksibilitet, og brukervennlighet. De GEOGRAFI datatypen bygger på Redshifts støtte for romlig analyse, og åpner opp for støtte for mange flere tredjeparts romlige og GIS-applikasjoner. Dessuten legger den til datatypen GEOMETRY og over 70 romlige funksjoner som allerede er tilgjengelige i Redshift. Datatypen GEOGRAPHY brukes i spørringer som krever høyere presisjonsresultater for romlige data med geografiske trekk som kan representeres med en sfæroidmodell av jorden og refereres ved bruk av breddegrad og lengdegrad som et romlig koordinatsystem. VARBYTE er en datatype med variabel størrelse for lagring og representasjon av binære strenger med variabel lengde.

Redshift gir ytelse i alle skalaer

Siden vi annonserte Amazon Redshift i 2012, har ytelse uansett skala vært et grunnleggende prinsipp for oss for å levere verdi til titusenvis av kunder som stoler på oss hver dag for å få forretningsinnsikt fra dataene deres. Kundene våre spenner over alle bransjer og størrelser, fra oppstartsbedrifter til Fortune 500-selskaper, og vi jobber for å levere den beste prisytelsen for enhver bruk. Gjennom årene har vi lansert funksjoner som å dynamisk legge til klyngekapasitet når du trenger det med samtidig skalering, sørge for at du bruker klyngeressurser effektivt med automatisk arbeidsbelastningsstyring (WLM), og automatisk justering av dataoppsett, distribusjonsnøkler og spørringsplaner for å gi optimal ytelse for en gitt arbeidsmengde. I 2021 lanserte vi funksjoner som AQUA, samtidighetsskalering for skriving og ytterligere forbedringer av RA3-noder for å fortsette å forbedre Redshifts prisytelse.

Vi introduserte RA3-nodetypene i 2019 som en teknologi som tillater uavhengig skalering av databehandling og lagring. Vi beskrev også hvordan kunder, inkludert Codeacademy, OpenVault, Yelp og Nielsen, har utnyttet Amazon Redshift RA3-noder med administrert lagring for å skalere skydatavarehusene deres og redusere kostnadene. RA3 utnytter Redshift Managed Storage (RMS) som sitt slitesterke lagringslag som tillater nesten ubegrenset lagringskapasitet der data sendes tilbake til Amazon S3. Dette muliggjorde nye funksjoner, som for eksempel datadeling og AQUA, der RMS brukes som en delt lagring på tvers av flere klynger. RA3-noder er tilgjengelige i tre størrelser (16XL, 4XL og XLPlus) for å balansere pris/ytelse. I 2021 lanserte vi enkelt node RA3 XLPlus-klynger for å hjelpe kunder kostnadseffektivt å migrere sine mindre datavarehusarbeidsmengder til RA3-er og dra nytte av bedre prisytelse. Vi introduserte også en selvbetjening DS2 til RA3 RI migreringsevne som lar RI-er konverteres til en flat kostnad mellom ekvivalente nodetyper.

AQUA (Advanced Query Accelerator) for Amazon Redshift er en ny distribuert og maskinvareakselerert cache som gjør at Amazon Redshift kan kjøre en størrelsesorden raskere enn andre skydatavarehus for bedrifter ved automatisk å øke visse spørringstyper. AQUA bruker AWS-designede prosessorer med AWS Nitro-brikker tilpasset for å øke hastigheten på datakryptering og komprimering, og tilpassede analyseprosessorer, implementert i FPGA-er, for å akselerere operasjoner som skanning, filtrering og aggregering. AQUA er tilgjengelig med nodene RA3.16xlarge, RA3.4xlarge eller RA3.xlplus uten ekstra kostnad og krever ingen kodeendringer.

Concurrency Scaling ble lansert i 2019 for å håndtere piggete og uforutsigbare lesearbeidsmengder uten å måtte forhåndstillegge kapasitet. Redshift tilbyr én times gratis samtidighetsskalering for hver 24 timers bruk som hovedklyngen din kjører. Den tilbyr også kostnadskontroller for å overvåke og begrense bruken din og tilhørende kostnader for samtidighetsskalering. I tillegg til lesespørringer, har støtte for skrivespørringer vært et stort spørsmål fra kunder om å støtte ETL-arbeidsbelastninger. I 2021 lanserte vi Redshift Concurrency Scaling støtte for skrivespørringer i forhåndsvisning med vanlige operasjoner som INSERT, DELETE, UPDATE og COPY for å håndtere uforutsigbare topper i ETL-arbeidsbelastninger. Hvis du bruker samtidighetsskalering, aktiveres denne nye funksjonen automatisk i klyngen din. Du kan overvåke bruken av samtidighetsskalering ved å bruke Amazon Redshift-konsollen og få varsler om bruk som overskrider dine definerte grenser. Du kan også opprette, endre og slette bruksgrenser programmatisk ved å bruke AWS Command Line Interface (CLI) og AWS API.

Til slutt fortsetter vi å sikre at AWS har omfattende sikkerhetsfunksjoner for å tilfredsstille de mest krevende kravene, og Amazon Redshift fortsetter å tilby datasikkerhet rett ut av esken uten ekstra kostnad. Vi introduserte nye sikkerhetsfunksjoner i 2021, som f.eks kryss-VPC støtte og standard IAM-roller, for å fortsette å gjøre Redshift sikrere for kundenes arbeidsbelastninger.

Oppsummering

Når det gjelder å gjøre det enklere, enklere og raskere for kunder å analysere alle dataene deres, er hastigheten viktig, og vi innoverer i et raskt tempo for å bringe nye muligheter til Redshift. Vi fortsetter å gjøre Redshift-funksjoner tilgjengelige i flere AWS-regioner over hele verden for å sikre at alle kunder har tilgang til alle funksjoner. Vi har dekket nøkkelfunksjonene ovenfor, og den komplette listen er tilgjengelig her.. Vi ser frem til hvordan du vil bruke noen av disse egenskapene til å fortsette å innovere med data og analyser.

om forfatteren

Manan Goel er Product Go-To-Market Leader for AWS Analytics Services inkludert Amazon Redshift og AQUA hos AWS. Han har mer enn 25 års erfaring og er godt kjent med databaser, datavarehus, business intelligence og analyser. Manan har en MBA fra Duke University og en BS i elektronikk- og kommunikasjonsteknikk.