Proti koncu leta 2022 je dr. AWS je objavil splošno razpoložljivost pretakanja v realnem času do Amazon RedShift za Amazonski kinezi podatkovni tokovi in Amazonovo pretakanje za Apache Kafka (Amazon MSK), s čimer se odpravi potreba po pretakanju podatkov Preprosta storitev shranjevanja Amazon (Amazon S3) preden ga zaužijete v Amazon Redshift.
Pretakanje zaužitja iz Amazon MSK v Amazon Redshift, predstavlja vrhunski pristop k obdelavi in analizi podatkov v realnem času. Amazon MSK služi kot zelo razširljiva in popolnoma upravljana storitev za Apache Kafka, ki omogoča brezhibno zbiranje in obdelavo velikih tokov podatkov. Integracija pretočnih podatkov v Amazon Redshift prinaša izjemno vrednost, saj organizacijam omogoča izkoriščanje potenciala analitike v realnem času in odločanja na podlagi podatkov.
Ta integracija vam omogoča, da dosežete nizko zakasnitev, merjeno v sekundah, medtem ko v Amazon Redshift vnesete stotine megabajtov pretočnih podatkov na sekundo. Hkrati ta integracija pomaga zagotoviti, da so najnovejše informacije takoj na voljo za analizo. Ker integracija ne zahteva uprizoritvenih podatkov v Amazonu S3, lahko Amazon Redshift zajema pretočne podatke z nižjo zakasnitvijo in brez vmesnih stroškov shranjevanja.
Pretakanje Amazon Redshift lahko konfigurirate v gruči Redshift z uporabo stavkov SQL za preverjanje pristnosti in povezavo s temo MSK. Ta rešitev je odlična možnost za podatkovne inženirje, ki želijo poenostaviti prenos podatkov in zmanjšati operativne stroške.
V tej objavi nudimo popoln pregled o tem, kako konfigurirati Pretakanje Amazon Redshift iz Amazon MSK.
Pregled rešitev
Naslednji diagram arhitekture opisuje storitve in funkcije AWS, ki jih boste uporabljali.
Potek dela vključuje naslednje korake:
- Začnete s konfiguracijo Amazon MSK Connect izvorni konektor, da ustvarite temo MSK, ustvarite lažne podatke in jih zapišete v temo MSK. Za to objavo delamo z lažnimi podatki o strankah.
- Naslednji korak je povezovanje z gručo Redshift z uporabo Urejevalnik poizvedb v2.
- Na koncu konfigurirate zunanjo shemo in ustvarite materializiran pogled v Amazon Redshift, da porabite podatke iz teme MSK. Ta rešitev se ne zanaša na priključek ponora MSK Connect za izvoz podatkov iz Amazon MSK v Amazon Redshift.
Naslednji diagram arhitekture rešitve podrobneje opisuje konfiguracijo in integracijo storitev AWS, ki jih boste uporabljali.
Potek dela vključuje naslednje korake:
- Razmestite izvorni priključek MSK Connect, gručo MSK in gručo Redshift znotraj zasebnih podomrežij na VPC.
- Izvorni priključek MSK Connect uporablja zrnata dovoljenja, opredeljena v AWS upravljanje identitete in dostopa (IAM) in-line pravilnik priložen an Vloga IAM, ki omogoča izvornemu konektorju izvajanje dejanj v gruči MSK.
- Dnevniki izvornega konektorja MSK Connect so zajeti in poslani v amazoncloudwatch skupina dnevnikov.
- Grozd MSK uporablja a konfiguracija gruče MSK po meri, ki omogoča konektorju MSK Connect ustvarjanje tem v gruči MSK.
- Dnevniki gruče MSK so zajeti in poslani skupini dnevnikov Amazon CloudWatch.
- Gruča Redshift uporablja razdrobljena dovoljenja, opredeljena v vgrajenem pravilniku IAM, ki je priložen vlogi IAM, kar gruči Redshift omogoča izvajanje dejanj v gruči MSK.
- Za povezavo z gručo Redshift lahko uporabite urejevalnik poizvedb v2.
Predpogoji
Za poenostavitev zagotavljanja in konfiguracije predpogojnih virov lahko uporabite naslednje Oblikovanje oblaka AWS predloga:
Pri zagonu sklada izvedite naslednje korake:
- za Ime skladovnice, vnesite smiselno ime za sklad, na primer
prerequisites
. - Izberite Naslednji.
- Izberite Naslednji.
- Izberite Potrjujem, da lahko AWS CloudFormation ustvari vire IAM z imeni po meri.
- Izberite Pošlji
Sklad CloudFormation ustvari naslednje vire:
- VPC
custom-vpc
, ustvarjen v treh območjih razpoložljivosti, s tremi javna podomrežja in tri zasebna podomrežja:- Javna podomrežja so povezana z javno tabelo poti, odhodni promet pa je usmerjen na internetni prehod.
- Zasebna podomrežja so povezana z zasebno tabelo poti, odhodni promet pa je poslan na prehod NAT.
- An internetni prehod priključen na Amazon VPC.
- A NAT prehod ki je povezan z an elastični IP in je nameščen v enem od javnih podomrežij.
- Tri varnostne skupine:
msk-connect-sg
, ki bo kasneje povezan s priključkom MSK Connect.redshift-sg
, ki bo kasneje povezan z gručo Redshift.msk-cluster-sg
, ki bo kasneje povezan z gručo MSK. Omogoča vhodni promet izmsk-connect-sg
inredshift-sg
.
- Dve skupini dnevnikov CloudWatch:
msk-connect-logs
, ki se uporablja za dnevnike MSK Connect.msk-cluster-logs
, ki se uporablja za dnevnike gruče MSK.
- Dve vlogi IAM:
msk-connect-role
, ki vključuje podrobna dovoljenja IAM za MSK Connect.redshift-role
, ki vključuje podrobna dovoljenja IAM za Amazon Redshift.
- A konfiguracija gruče MSK po meri, ki omogoča konektorju MSK Connect ustvarjanje tem v gruči MSK.
- Grozd MSK s tremi posredniki, razporejenimi v treh zasebnih podomrežjih
custom-vpc
. Omsk-cluster-sg
varnostna skupina incustom-msk-cluster-configuration
se uporabijo za gručo MSK. Dnevniki posrednika so dostavljeni namsk-cluster-logs
Dnevniška skupina CloudWatch. - A Podomrežna skupina gruče Redshift, ki uporablja tri zasebna podomrežja
custom-vpc
. - Gruča Redshift z enim samim vozliščem, razporejenim v zasebnem podomrežju znotraj skupine podomrežij gruče Redshift. The
redshift-sg
varnostna skupina inredshift-role
Vloga IAM se uporablja za gručo Redshift.
Ustvarite vtičnik po meri MSK Connect
Za to objavo uporabljamo an Generator podatkov Amazon MSK razporejen v MSK Connect, da ustvari lažne podatke o strankah in jih zapiše v temo MSK.
Izvedite naslednje korake:
- Prenos Generator podatkov Amazon MSK Datoteka JAR z odvisnostmi iz GitHub.
- Naložite datoteko JAR v vedro S3 v svojem računu AWS.
- Na konzoli Amazon MSK izberite Vtičniki po meri pod MSK Connect v podoknu za krmarjenje.
- Izberite Ustvari vtičnik po meri.
- Izberite Prebrskaj S3, poiščite datoteko JAR generatorja podatkov Amazon MSK, ki ste jo naložili v Amazon S3, nato izberite Izberite.
- za Ime vtičnika po meri, vnesite
msk-datagen-plugin
. - Izberite Ustvari vtičnik po meri.
Ko je vtičnik po meri ustvarjen, boste videli, da je njegov status Aktivnoin se lahko premaknete na naslednji korak.
Ustvarite konektor MSK Connect
Izvedite naslednje korake, da ustvarite konektor:
- Na konzoli Amazon MSK izberite Priključki pod MSK Connect v podoknu za krmarjenje.
- Izberite Ustvari konektor.
- za Vrsta vtičnika po meri, izberite Uporabi obstoječi vtičnik.
- Izberite
msk-datagen-plugin
, nato izberite Naslednji. - za Ime priključka, vnesite
msk-datagen-connector
. - za Vrsta grozda, izberite Samoupravna gruča Apache Kafka.
- za VPC, izberite
custom-vpc
. - za Podomrežje 1, izberite zasebno podomrežje v svojem prvem območju razpoložljivosti.
Za custom-vpc
ustvarjeno s predlogo CloudFormation, uporabljamo lihe obsege CIDR za javna podomrežja in celo obsege CIDR za zasebna podomrežja:
-
- CIDR-ji za javna podomrežja so 10.10.1.0/24, 10.10.3.0/24 in 10.10.5.0/24
- CIDR-ji za zasebna podomrežja so 10.10.2.0/24, 10.10.4.0/24 in 10.10.6.0/24
- za Podomrežje 2, izberite zasebno podomrežje znotraj svojega drugega območja razpoložljivosti.
- za Podomrežje 3, izberite zasebno podomrežje v svojem tretjem območju razpoložljivosti.
- za Bootstrap strežniki, vnesite seznam zagonskih strežnikov za preverjanje pristnosti TLS vaše gruče MSK.
Da pridobite zagonske strežnike za vašo gručo MSK, se pomaknite do konzole Amazon MSK, izberite Grozdi, izberite msk-cluster
, nato izberite Oglejte si podatke o stranki. Kopirajte vrednosti TLS za zagonske strežnike.
- za Varnostne skupine, izberite Uporabite posebne varnostne skupine z dostopom do te gruče, in izberite
msk-connect-sg
. - za Konfiguracija priključka, zamenjajte privzete nastavitve z naslednjimi:
- Za zmogljivost priključka izberite Zagotovljeno.
- za Število MCU na delavca, izberite 1.
- za Število delavcev, izberite 1.
- za Konfiguracija delavca, izberite Uporabite privzeto konfiguracijo MSK.
- za Dovoljenja za dostop, izberite
msk-connect-role
. - Izberite Naslednji.
- Za šifriranje izberite TLS šifriran promet.
- Izberite Naslednji.
- za Dostava hlodov, izberite Dostava v Amazon CloudWatch Logs.
- Izberite Brskanjetako, da izberete
msk-connect-logs
, in izberite Izberite. - Izberite Naslednji.
- Preglejte in izberite Ustvari konektor.
Ko je konektor po meri ustvarjen, boste videli, da je njegov status Tekin se lahko premaknete na naslednji korak.
Konfigurirajte pretakanje Amazon Redshift za Amazon MSK
Izvedite naslednje korake, da nastavite pretakanje:
- Povežite se z gručo Redshift z urejevalnikom poizvedb v2 in se overite z uporabniškim imenom baze podatkov
awsuser
, in gesloAwsuser123
. - Ustvarite zunanjo shemo iz Amazon MSK z naslednjim stavkom SQL.
V naslednjo kodo vnesite vrednosti za redshift-role
vloga IAM in msk-cluster
grozd ARN.
- Izberite Run za zagon stavka SQL.
- Ustvarite materializiran pogled z naslednjim stavkom SQL:
- Izberite Run za zagon stavka SQL.
- Zdaj lahko poizvedujete po materializiranem pogledu z naslednjim stavkom SQL:
- Izberite Run za zagon stavka SQL.
- Za spremljanje napredka zapisov, naloženih s pretakanjem, lahko izkoristite SYS_STREAM_SCAN_STATES nadzorni pogled z naslednjim stavkom SQL:
- Izberite Run za zagon stavka SQL.
- Za spremljanje napak pri zapisih, naloženih s pretakanjem, lahko izkoristite SYS_STREAM_SCAN_ERRORS nadzorni pogled z naslednjim stavkom SQL:
- Izberite Run za zagon stavka SQL.
Čiščenje
Če virov, ki ste jih ustvarili, ne potrebujete več, jih izbrišite v naslednjem vrstnem redu, da preprečite dodatne stroške:
- Izbrišite konektor MSK Connect
msk-datagen-connector
. - Izbrišite vtičnik MSK Connect
msk-datagen-plugin
. - Izbrišite datoteko JAR generatorja podatkov Amazon MSK, ki ste jo prenesli, in izbrišite vedro S3, ki ste ga ustvarili.
- Ko izbrišete konektor MSK Connect, lahko izbrišete predlogo CloudFormation. Vsi viri, ustvarjeni s predlogo CloudFormation, bodo samodejno izbrisani iz vašega računa AWS.
zaključek
V tem prispevku smo pokazali, kako konfigurirati pretakanje Amazon Redshift iz Amazon MSK, s poudarkom na zasebnosti in varnosti.
Kombinacija zmožnosti Amazon MSK za obvladovanje podatkovnih tokov visoke prepustnosti z robustnimi analitičnimi zmogljivostmi Amazon Redshift omogoča podjetjem, da takoj pridobijo vpoglede, ki jih je mogoče uporabiti. Ta integracija podatkov v realnem času povečuje agilnost in odzivnost organizacij pri razumevanju spreminjajočih se podatkovnih trendov, vedenja strank in operativnih vzorcev. Omogoča pravočasno in informirano odločanje, s čimer pridobi konkurenčno prednost v današnjem dinamičnem poslovnem okolju.
Ta rešitev je uporabna tudi za stranke, ki jo želijo uporabljati Amazon MSK brez strežnika in Amazon Redshift brez strežnika.
Upamo, da je bila ta objava dobra priložnost, da izveste več o integraciji in konfiguraciji storitve AWS. Sporočite nam svoje povratne informacije v razdelku za komentarje.
O avtorjih
Sebastijan Vlad je višji partnerski arhitekt rešitev pri Amazon Web Services, s strastjo do podatkovnih in analitičnih rešitev ter uspeha strank. Sebastian sodeluje s podjetniškimi strankami, da bi jim pomagal oblikovati in zgraditi sodobne, varne in razširljive rešitve za doseganje njihovih poslovnih rezultatov.
Sharad Pai je vodilni tehnični svetovalec pri AWS. Specializiran je za analitiko pretakanja in strankam pomaga zgraditi razširljive rešitve z uporabo Amazon MSK in Amazon Kinesis. Ima več kot 16 let izkušenj v industriji in trenutno sodeluje z medijskimi strankami, ki gostijo platforme za pretakanje v živo na AWS, pri čemer upravlja največjo sočasnost več kot 50 milijonov. Preden se je pridružil AWS, je Sharadova kariera vodilnega razvijalca programske opreme vključevala 9 let kodiranja, dela z odprtokodnimi tehnologijami, kot so JavaScript, Python in PHP.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/big-data/simplify-data-streaming-ingestion-for-analytics-using-amazon-msk-and-amazon-redshift/
- :ima
- : je
- :ne
- $GOR
- 1
- 10
- 100
- 101
- 11
- 110
- 12
- 14
- 15%
- 150
- 16
- 2%
- 2022
- 22
- 4
- 5
- 50
- 6
- 7
- 8
- 9
- a
- sposobnost
- O meni
- dostop
- upravljanje dostopa
- Račun
- Doseči
- potrditi
- čez
- deljiv
- dejavnosti
- Dodatne
- Prednost
- vsi
- Dovoli
- omogoča
- skupaj
- Prav tako
- Amazon
- Amazon Kinesis
- Amazon Web Services
- an
- Analiza
- Analitično
- analitika
- in
- razglasitve
- Apache
- Apache Kafka
- primerno
- uporabna
- pristop
- Arhitektura
- SE
- AS
- povezan
- At
- priložen
- preverjanje pristnosti
- Preverjanje pristnosti
- avto
- samodejno
- razpoložljivost
- Na voljo
- AWS
- Oblikovanje oblaka AWS
- BE
- ker
- pred
- vedenja
- počutje
- krepko
- Bootstrap
- Prinaša
- posrednik
- posredniki
- izgradnjo
- poslovni
- by
- CAN
- Zmogljivosti
- kapaciteta
- Zajeto
- Kariera
- spreminjanje
- Stroški
- Izberite
- stranke
- Grozd
- Koda
- Kodiranje
- zbirka
- kombinacija
- komentarji
- konkurenčno
- dokončanje
- konfiguracija
- konfiguriranje
- Connect
- Konzole
- svetovalec
- porabijo
- strošek
- štetje
- ustvarjajo
- ustvaril
- ustvari
- Trenutno
- po meri
- stranka
- podatki o strankah
- Uspeh stranke
- Stranke, ki so
- vrhunsko
- datum
- integracija podatkov
- obdelava podatkov
- Podatkov usmerjenih
- Baze podatkov
- Odločanje
- privzeto
- opredeljen
- odstrani
- izbrisano
- dostavi
- Dokazano
- odvisnosti
- razporedi
- razporejeni
- drift
- opisuje
- Opisuje
- Oblikovanje
- Podatki
- dev
- Razvojni
- diagram
- usmerjen
- ne
- Ne
- nalaganje
- dinamično
- Edge
- urednik
- odstranjevanje
- pooblašča
- omogoča
- omogočanje
- šifriran
- šifriranje
- konec
- Inženirji
- Izboljša
- Vnesite
- Podjetje
- podjetniške stranke
- napake
- Eter (ETH)
- Tudi
- Primer
- odlično
- obstoječih
- izkušnje
- izvoz
- zunanja
- Lastnosti
- povratne informacije
- file
- prva
- Osredotočite
- po
- za
- iz
- v celoti
- pridobivanje
- Prehod
- Spol
- splošno
- ustvarjajo
- generator
- GitHub
- Globalno
- dobro
- zrnat
- skupina
- Skupine
- ročaj
- plezalni pas
- he
- pomoč
- Pomaga
- visoka
- zelo
- zgodovina
- upam,
- gostovanje
- Kako
- Kako
- HTML
- HTTPS
- Stotine
- IAM
- identiteta
- upravljanje identitete in dostopa
- if
- slika
- neizmerno
- in
- vključeno
- vključuje
- Industrija
- Podatki
- obvestila
- vpogledi
- Povezovanje
- integracija
- posrednik
- Internet
- v
- IT
- ITS
- JavaScript
- pridružil
- json
- kafka
- Ključne
- Vedite
- Pokrajina
- Latenca
- pozneje
- začetek
- vodi
- UČITE
- Naj
- kot
- LIMIT
- Seznam
- v živo
- prijavi
- več
- si
- nizka
- nižje
- Znamka
- upravlja
- upravljanje
- upravljanje
- smiselna
- izmerjena
- mediji
- morda
- milijonov
- sodobna
- monitor
- spremljanje
- več
- Najbolj
- premikanje
- Ime
- Imena
- Krmarjenje
- ostalo
- Nimate
- Naslednja
- št
- Vozel
- zdaj
- of
- on
- ONE
- odprite
- open source
- operativno
- Priložnost
- Možnost
- Da
- organizacije
- rezultatov
- več
- pregled
- Stran
- podokno
- partner
- strast
- Geslo
- vzorci
- Peak
- za
- opravlja
- Dovoljenja
- PHP
- Platforme
- platon
- Platonova podatkovna inteligenca
- PlatoData
- vključiti
- plugins
- politika
- Prispevek
- potencial
- predpogoj
- preprečiti
- Predhodna
- zasebnost
- Zasebnost in varnost
- zasebna
- obravnavati
- Napredek
- takoj
- zagotavljajo
- javnega
- Python
- Količina
- poizvedba
- območja
- zlahka
- v realnem času
- podatki v realnem času
- evidence
- zmanjša
- zanašajo
- zamenjajte
- predstavlja
- zahteva
- viri
- robusten
- vloga
- vloge
- Pot
- Run
- Enako
- razširljive
- skeniranje
- brezšivne
- Iskalnik
- drugi
- sekund
- Oddelek
- zavarovanje
- varnost
- glej
- izberite
- višji
- poslan
- Strežniki
- služi
- Storitev
- Storitve
- nastavite
- nastavitve
- Prikaz
- Enostavno
- poenostavitev
- sam
- Software
- Rešitev
- rešitve
- vir
- specializirano
- specifična
- SQL
- sveženj
- Stage
- uprizoritev
- Začetek
- Država
- Izjava
- Izjave
- Države
- Status
- Korak
- Koraki
- shranjevanje
- tok
- pretakanje
- tokovi
- subnet
- podomrežja
- uspeh
- Uspešno
- Preverite
- miza
- Bodite
- Naloge
- tehnični
- Tehnologije
- Predloga
- da
- O
- Vir
- njihove
- Njih
- POTEM
- s tem
- tretja
- ta
- 3
- pretočnost
- čas
- pravočasno
- TLS
- do
- današnje
- temo
- Teme
- Prometa
- Trends
- razumevanje
- up-to-date
- naložili
- us
- uporaba
- Rabljeni
- uporabnik
- uporablja
- uporabo
- vrednost
- Vrednote
- Popravljeno
- preko
- Poglej
- je
- we
- web
- spletne storitve
- kdaj
- ki
- medtem
- WHO
- bo
- z
- v
- brez
- delo
- potek dela
- deluje
- deluje
- pisati
- let
- ja
- jo
- Vaša rutina za
- zefirnet
- cona
- cone