Amazon RedShift este un depozit de date rapid, scalabil, securizat și complet gestionat, care vă permite să analizați toate datele dvs. folosind SQL standard ușor și rentabil. Amazon Redshift Schimbul de date permite clienților să partajeze în siguranță date live, coerente tranzacționale într-un cluster Amazon Redshift cu un alt cluster Amazon Redshift între conturi și regiuni, fără a fi nevoie să copieze sau să mute datele dintr-un cluster în altul.
Amazon Redshift Data Sharing a fost lansat inițial în Martie 2021și a fost adăugat suport pentru partajarea datelor pe mai multe conturi august 2021. Asistența interregiune a devenit disponibilă în general în februarie 2022. Acest lucru oferă flexibilitate și agilitate deplină pentru a partaja date între clustere Redshift în același cont AWS, conturi diferite sau regiuni diferite.
Partajarea datelor Amazon Redshift este folosită pentru a redefini în mod fundamental arhitecturile de implementare Amazon Redshift într-un model de tip hub-spoke, rețea de date, pentru a îndeplini mai bine SLA-urile de performanță, pentru a oferi izolarea sarcinii de lucru, pentru a efectua analize între grupuri, pentru a integra cu ușurință noi cazuri de utilizare și, cel mai important, pentru a face toate asta fără complexitatea mișcării datelor și a copiilor de date. Unele dintre cele mai frecvente întrebări adresate în timpul implementării partajării datelor sunt „Cât de mari ar trebui să fie clusterele mele de consumatori și clusterele de producători?” și „Cum obțin cea mai bună performanță de preț pentru izolarea sarcinii de lucru?”. Deoarece caracteristicile încărcăturii de lucru, cum ar fi dimensiunea datelor, rata de asimilare, modelul de interogări și activitățile de întreținere pot afecta performanța partajării datelor, ar trebui implementată o strategie continuă de dimensionare atât a clusterelor de consumatori, cât și de producători pentru a maximiza performanța și a minimiza costurile. În această postare, vă oferim o abordare pas cu pas pentru a vă ajuta să determinați dimensiunile grupurilor de producători și consumatori pentru cea mai bună performanță de preț în funcție de volumul dvs. de lucru specific.
Ghid generic de dimensionare a consumatorilor
Următorii pași arată strategia generică de dimensionare a grupurilor de producători și consumatori. Îl puteți folosi ca punct de plecare și îl puteți modifica în consecință pentru a satisface scenariul dvs. de utilizare specific.
Dimensiune clusterul dvs. de producători
Ar trebui să vă asigurați întotdeauna că dimensionați corespunzător clusterul dvs. de producători pentru a obține performanța de care aveți nevoie pentru a vă îndeplini SLA. Puteți utiliza calculatorul de dimensionare din consola Amazon Redshift pentru a obține o recomandare pentru clusterul de producători pe baza dimensiunii datelor și a caracteristicii de interogare. Caută Ajută-mă să aleg pe consola din regiunile AWS care acceptă tipuri de noduri RA3 pentru a utiliza acest calculator de dimensionare. Rețineți că aceasta este doar o recomandare inițială pentru a începe și ar trebui să testați rularea întregului volum de lucru pe clusterul de dimensiunea inițială și să redimensionați elastic clusterul în sus și în jos în consecință pentru a obține cele mai bune performanțe de preț.
Dimensiunea și configurarea clusterului inițial de consumatori
Ar trebui să dimensionați întotdeauna clusterul dvs. de consumatori în funcție de nevoile dvs. de calcul. O modalitate de a începe este să urmați ghidul generic de dimensionare a clusterului similar cu clusterul de producători de mai sus.
Configurați partajarea datelor Amazon Redshift
Configurați partajarea datelor de la producător la consumator după ce ați configurat atât clusterul producător, cât și consumator. Faceți referire la aceasta post pentru îndrumări despre cum să configurați partajarea datelor.
Testați volumul de lucru numai pentru consumatori pe clusterul inițial de consumatori
Testați volumul de lucru numai pentru consumatori pe noul cluster inițial de consumatori. Acest lucru se poate face prin direcționarea aplicațiilor de consum, de exemplu instrumente ETL, aplicații BI și clienți SQL, către noul cluster de consumatori și reluând volumul de lucru pentru a evalua performanța în raport cu cerințele dumneavoastră.
Testați doar sarcina de lucru pentru consumatori pe diferite configurații de cluster de consumatori
Dacă dimensiunea inițială a clusterului de consum îndeplinește sau depășește cerințele dvs. de performanță a sarcinii de lucru, atunci puteți fie să continuați să utilizați această configurație de cluster, fie puteți testa configurații mai mici pentru a vedea dacă puteți reduce și mai mult costul și obține în continuare performanța de care aveți nevoie.
Pe de altă parte, dacă clusterul de consum de dimensiune inițială nu îndeplinește cerințele de performanță a sarcinii de lucru, atunci puteți testa în continuare configurații mai mari pentru a obține configurația care îndeplinește SLA.
Ca regulă generală, măriți clusterul de consumatori de două ori mai mult decât configurația inițială a clusterului, în mod incremental, până când îndeplinește cerințele dvs. de sarcină de lucru.
După ce ați planificat configurația pe care doriți să testați, utilizați redimensionarea elastică pentru a redimensiona clusterul inițial la configurația cluster-țintă. După finalizarea redimensionării elastice, efectuați același test de sarcină de lucru și evaluați performanța în raport cu SLA. Selectați configurația care corespunde țintei dvs. de performanță a prețului.
Testați doar volumul de lucru al producătorului pe diferite configurații de cluster de producători
Odată ce vă mutați volumul de lucru al consumatorilor în clusterul de consumatori cu performanța optimă a prețului, ar putea exista o oportunitate de a reduce resursele de calcul ale producătorului pentru a economisi costuri.
Pentru a realiza acest lucru, puteți rula din nou sarcina de lucru producător numai pe 1/2x din dimensiunea producătorului inițial și puteți evalua performanța sarcinii de lucru. Redimensionarea cluster-ului în sus și în jos depinde în consecință de rezultat și apoi selectați configurația minimă de producător care îndeplinește cerințele de performanță a sarcinii de lucru.
Reevaluați după o încărcare completă de lucru în timp
Pe măsură ce Amazon Redshift continuă să evolueze și există lansări continue de îmbunătățire a performanței și scalabilității, performanța de partajare a datelor se va îmbunătăți în continuare. În plus, numeroase variabile ar putea afecta performanța interogărilor de partajare a datelor. Următoarele sunt doar câteva exemple:
- Rata de absorbție și cantitatea de date se modifică
- Model de interogare și caracteristică
- Se modifică volumul de muncă
- Concurenta
- Activități de întreținere, de exemplu vid, analiză și ATO
Acesta este motivul pentru care trebuie să reevaluați ocazional dimensionarea clusterului producătorului și consumatorilor folosind strategia de mai sus, mai ales după o implementare completă a sarcinii de lucru, pentru a obține cea mai bună performanță la preț din configurația clusterului dvs.
Soluții automate de dimensionare
Dacă mediul dvs. a implicat o arhitectură mai complexă, de exemplu cu mai multe instrumente sau aplicații (BI, asimilare sau streaming, ETL, știința datelor), atunci s-ar putea să nu fie fezabilă să utilizați metoda manuală din ghidul generic de mai sus. În schimb, puteți utiliza soluțiile din această secțiune pentru a reda automat volumul de lucru din clusterul dvs. de producție pe clusterele de consumatori și producători de testare pentru a evalua performanța.
Utilitar Replay simplu va fi folosită ca soluție automată pentru a vă ghida prin procesul de obținere a dimensiunii potrivite a grupurilor de producători și consumatori pentru cel mai bun preț performanță.
Simplu Replay este un instrument pentru efectuarea unei analize ce se întâmplă și pentru evaluarea modului în care se comportă volumul de lucru în diferite scenarii. De exemplu, puteți utiliza instrumentul pentru a evalua volumul de lucru real pe un nou tip de instanță, cum ar fi RA3, pentru a evalua o nouă caracteristică sau pentru a evalua diferite configurații de cluster. Include, de asemenea, suport îmbunătățit pentru reluarea agestiei de date și a conductelor de export cu instrucțiuni COPY și UNLOAD. Pentru a începe și a reda sarcinile de lucru, descărcați instrumentul din Depozitul Amazon Redshift GitHub.
Aici parcurgem pașii pentru a extrage jurnalele de sarcină de lucru din clusterul de producție sursă și a le reda într-un mediu izolat. Acest lucru vă permite să efectuați o comparație directă între aceste clustere Amazon Redshift fără probleme și să selectați configurația clusterelor care vă corespunde cel mai bine prețul vizat de performanță.
Următoarea diagramă prezintă arhitectura soluției.
Rezolvare soluție
Urmați acești pași pentru a parcurge soluția de dimensionare a clusterelor dvs. de consumatori și producători.
Dimensiunea clusterului dvs. de producție
Ar trebui să vă asigurați întotdeauna că dimensionați corespunzător clusterul dvs. de producție existent pentru a obține performanța de care aveți nevoie pentru a îndeplini cerințele dvs. de sarcină de lucru. Puteți utiliza calculatorul de dimensionare din consola Amazon Redshift pentru a obține o recomandare privind clusterul de producție pe baza dimensiunii datelor și a caracteristicii de interogare. Caută Ajută-mă să aleg pe consola din regiunile AWS care acceptă tipuri de noduri RA3 pentru a utiliza acest calculator de dimensionare. Rețineți că aceasta este doar o recomandare inițială pentru a începe. Ar trebui să testați rularea întregului volum de lucru pe clusterul de dimensiune inițială și să redimensionați elastic clusterul în sus și în jos în consecință pentru a obține performanța la cel mai bun preț.
Identificați volumul de muncă care trebuie izolat
Este posibil să aveți diferite sarcini de lucru care rulează pe clusterul original, dar primul pas este să identificați cea mai critică sarcină de lucru pentru afacere pe care dorim să o izolăm. Acest lucru se datorează faptului că dorim să ne asigurăm că noua arhitectură poate îndeplini cerințele dvs. de sarcină de lucru. Acest post este o referință bună pentru un caz de utilizare pentru izolarea sarcinii de lucru pentru partajarea datelor, care vă poate ajuta să decideți ce sarcină de lucru poate fi izolată.
Configurați redarea simplă
Odată ce vă cunoașteți volumul de muncă critic, trebuie activați jurnalul de audit în clusterul dvs. de producție în care se execută volumul de lucru critic identificat mai sus pentru a captura activitățile de interogare și pentru a le stoca Serviciul de stocare simplă Amazon (Amazon S3). Rețineți că poate dura până la trei ore pentru ca jurnalele de audit să fie livrate către Amazon S3. Odată ce jurnalul de audit este disponibil, treceți la configurați Reluare simplă și apoi extrage volumul de lucru critic din jurnalul de audit. Rețineți că start_time și end_time pot fi utilizați ca parametri pentru a filtra volumul de lucru critic dacă aceste sarcini rulează în anumite perioade de timp, de exemplu, între 9:11 și XNUMX:XNUMX. În caz contrar, va extrage toate activitățile înregistrate.
Volumul de lucru de bază
Creați un cluster de referință cu aceeași configurație ca și clusterul producător prin restaurarea din instantaneul de producție. Scopul începerii cu aceeași configurație este de a baza performanța într-un mediu izolat.
Odată ce cluster-ul de bază este disponibil, reda volumul de lucru extras din clusterul de bază. Rezultatul acestei reluări va fi linia de bază utilizată pentru a compara cu reluările ulterioare pe diferite configurații de consum.
Configurați grupurile inițiale de testare a producătorilor și consumatorilor
Creați un cluster de producători cu aceeași configurație de cluster de producție prin restaurarea din instantaneul de producție. Creați un grup de consumatori cu dimensiunea inițială recomandată a consumatorului din ghidul anterior. În plus, configurați partajarea datelor între producător și consumator.
Reluați volumul de lucru pentru producător și consumator inițial
Replay volumul de lucru al producătorului numai pe clusterul de producători de dimensiunea inițială. Acest lucru poate fi realizat folosind parametrul de filtru „Excludeți” pentru a exclude interogările consumatorilor, de exemplu utilizatorul care execută interogări consumatori.
Replay volumul de lucru al consumatorului numai pe clusterul de consumatori de dimensiune inițială. Acest lucru poate fi realizat folosind parametrul de filtru „Include” pentru a exclude interogările consumatorilor, de exemplu utilizatorul care execută interogări consumatori.
Evaluați performanța acestor reluări în raport cu cerințele de performanță de bază și de volum de lucru.
Redați volumul de lucru al consumatorilor în diferite configurații
Dacă dimensiunea inițială a clusterului de consum îndeplinește sau depășește cerințele de performanță a sarcinii de lucru, atunci puteți fie să utilizați această configurație de cluster, fie să urmați acești pași pentru a testa configurații mai mici pentru a vedea dacă puteți reduce și mai mult costurile și să obțineți în continuare performanța de care aveți nevoie.
Comparați rezultatele inițiale ale performanței consumatorilor cu cerințele dvs. de volum de muncă:
- Dacă rezultatul depășește cerințele dvs. de performanță a sarcinii de lucru, atunci puteți reduce dimensiunea clusterului de consumatori în mod incremental, începând cu 1/2x, puteți reîncerca reluarea și evalua performanța, apoi puteți redimensiona în sus sau în jos în funcție de rezultat, până când vă îndeplinește volumul de lucru. cerințe. Scopul este să obțineți un punct favorabil în care vă simțiți confortabil cu cerințele de performanță și să obțineți cel mai mic preț posibil.
- Dacă rezultatul nu îndeplinește cerințele dvs. de performanță a sarcinii de lucru, atunci puteți crește dimensiunea clusterului în mod incremental, începând cu de 2 ori dimensiunea inițială, puteți reîncerca reluarea și evalua performanța până când îndeplinește cerințele de performanță a sarcinii de lucru.
Redați volumul de lucru al producătorului pe diferite configurații
Odată ce vă împărțiți încărcăturile de lucru în clustere de consumatori, sarcina pe clusterul de producători ar trebui redusă și ar trebui să evaluați performanța sarcinii de lucru a clusterului dvs. de producători pentru a căuta oportunitatea de a reduce dimensiunea pentru a economisi costuri.
Pașii sunt similari cu reluarea consumatorului. Elastic redimensionează clusterul de producători treptat, începând cu 1/2 ori dimensiunea inițială, redați din nou volumul de lucru numai pentru producător și evaluați performanța, apoi redimensionați în continuare în sus sau în jos până când îndeplinește cerințele de performanță a sarcinii de lucru. Scopul este de a obține un punct favorabil în care să vă simțiți confortabil cu cerințele de performanță a sarcinii de lucru și să obțineți cel mai mic preț posibil. Odată ce aveți configurația dorită a clusterului de producători, reîncercați să redați din nou sarcinile de lucru ale consumatorilor pe clusterul de consumatori pentru a vă asigura că performanța nu a fost afectată de modificările configurației clusterului de producători. În cele din urmă, ar trebui să redați atât sarcinile de lucru ale producătorilor, cât și ale consumatorilor simultan, pentru a vă asigura că performanța este atinsă într-un scenariu de încărcare completă.
Reevaluați după o încărcare completă de lucru în timp
Similar cu îndrumările generice, ar trebui să reevaluați dimensionarea clusterelor de producători și consumatori folosind strategia anterioară ocazional, mai ales după implementarea completă a sarcinii de lucru pentru a obține cea mai bună performanță de preț din configurația clusterului dvs.
A curăța
Rularea acestor teste de dimensionare în contul dvs. AWS poate avea unele implicații de cost, deoarece furnizează noi clustere Amazon Redshift, care pot fi taxate ca instanțe la cerere dacă nu aveți Instanțe rezervate. Când finalizați evaluările, vă recomandăm să ștergeți clusterele Amazon Redshift pentru a economisi costuri. De asemenea, vă recomandăm să vă întrerupeți clusterele atunci când nu sunt utilizate.
Aplicarea Amazon Redshift și cele mai bune practici de partajare a datelor
Dimensionarea corectă atât a grupurilor dvs. de producători, cât și a celor de consumatori vă va oferi un început bun pentru a obține cele mai bune performanțe de preț din implementarea dvs. Amazon Redshift. Cu toate acestea, dimensionarea nu este singurul factor care vă poate maximiza performanța. În acest caz, înțelegerea și respectarea celor mai bune practici sunt la fel de importante.
Cele mai bune practici generale de reglare a performanței Amazon Redshift sunt aplicabile implementării partajării datelor. Asigurați-vă că implementarea dvs. urmează acestea Cele mai bune practici.
Există numeroase bune practici specifice de partajare a datelor pe care ar trebui să le urmați pentru a vă asigura că maximizați performanța. Faceți referire la aceasta post pentru mai multe detalii.
Rezumat
Nu există o recomandare universală cu privire la dimensiunile grupurilor de producători și consumatori. Acesta variază în funcție de sarcinile de lucru și de performanța dvs. SLA. Scopul acestei postări este de a vă oferi îndrumări cu privire la modul în care puteți evalua performanța specifică a volumului de lucru de partajare a datelor pentru a determina atât dimensiunile clusterelor de consumator, cât și de producător, pentru a obține performanța la cel mai bun preț. Luați în considerare testarea sarcinilor de lucru pe producător și consumator folosind reluarea simplă înainte de a o adopta în producție pentru a obține cele mai bune performanțe la preț.
Despre Autori
BP Yau este manager de produs senior la AWS. Este pasionat de a ajuta clienții să proiecteze soluții de date mari pentru a procesa datele la scară. Înainte de AWS, el a ajutat Amazon.com Supply Chain Optimization Technologies să-și migreze depozitul de date Oracle către Amazon Redshift și să-și construiască platforma de analiză a datelor mari de generație următoare folosind tehnologiile AWS.
Sidhanth Muralidhar este manager principal de cont tehnic la AWS. Lucrează cu clienți mari, care își desfășoară sarcinile de lucru pe AWS. Este pasionat să lucreze cu clienții și să îi ajute să proiecteze sarcinile de lucru pentru costuri, fiabilitate, performanță și excelență operațională la scară în călătoria lor în cloud. El are un interes puternic și pentru Data Analytics.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/big-data/how-to-get-best-price-performance-from-your-amazon-redshift-data-sharing-deployment/
- 100
- a
- Despre Noi
- mai sus
- în consecință
- Cont
- Conturi
- Obține
- realizat
- peste
- activităţi de
- adăugat
- Adoptarea
- După
- împotriva
- TOATE
- permite
- mereu
- Amazon
- Amazon.com
- sumă
- analiză
- Google Analytics
- analiza
- și
- O alta
- aplicabil
- aplicatii
- abordare
- arhitectură
- de audit
- Automata
- în mod automat
- disponibil
- AWS
- bazat
- De bază
- deoarece
- înainte
- Benchmark
- CEL MAI BUN
- Cele mai bune practici
- Mai bine
- între
- Mare
- Datele mari
- construi
- afaceri
- captura
- caz
- cazuri
- sigur
- lanţ
- Modificări
- caracteristică
- Caracteristici
- încărcat
- clientii
- Cloud
- Grup
- COM
- confortabil
- Comun
- comparaţie
- comparație
- Completă
- Terminat
- complex
- complexitate
- Calcula
- efectuarea
- Configuraţie
- Lua în considerare
- consistent
- Consoleze
- consumator
- continua
- continuă
- continuu
- A costat
- Cheltuieli
- ar putea
- crea
- critic
- clienţii care
- de date
- Analiza datelor
- știința datelor
- schimbul de date
- livrate
- depinde de
- desfășurarea
- detalii
- Determina
- diferit
- direcționa
- Dont
- jos
- Descarca
- în timpul
- cu ușurință
- oricare
- permite
- sporită
- Afacere
- Mediu inconjurator
- la fel de
- mai ales
- Eter (ETH)
- evalua
- evaluări
- evoluție
- exemplu
- exemple
- depășește
- Excelență
- existent
- exporturile
- extrage
- eșuează
- FAST
- realizabil
- Caracteristică
- filtru
- În cele din urmă
- First
- Flexibilitate
- urma
- următor
- urmează
- din
- Complet
- fundamental
- mai mult
- În plus
- Câştig
- în general
- generaţie
- obține
- obtinerea
- GitHub
- Da
- Go
- bine
- ghida
- ajutor
- a ajutat
- ajutor
- ORE
- Cum
- Cum Pentru a
- Totuși
- HTTPS
- identificat
- identifica
- Impactul
- afectate
- implementat
- implicații
- important
- îmbunătățire
- îmbunătățirea
- in
- include
- Crește
- inițială
- inițial
- instanță
- in schimb
- interes
- implicat
- izolat
- izolare
- IT
- călătorie
- pasionat
- Cunoaște
- mare
- mai mare
- a lansat
- Permite
- Pârghie
- trăi
- încărca
- Uite
- întreținere
- face
- manager
- manual
- Maximaliza
- Întâlni
- se intalneste
- metodă
- ar putea
- migra
- minim
- model
- mai mult
- cele mai multe
- muta
- mişcare
- multiplu
- Nevoie
- au nevoie
- nevoilor
- Nou
- următor
- nod
- numeroși
- ocazie
- bord
- ONE
- operațional
- Oportunitate
- optimizare
- optim
- oracol
- original
- Altele
- in caz contrar
- parametru
- parametrii
- pasionat
- Model
- efectua
- performanță
- efectuează
- perioadele
- plan
- platformă
- Plato
- Informații despre date Platon
- PlatoData
- Punct
- posibil
- Post
- practicile
- precedent
- preţ
- Principal
- proces
- producător
- Produs
- manager de produs
- producere
- cum se cuvine
- furniza
- furnizează
- scop
- Întrebări
- rată
- recomanda
- Recomandare
- recomandat
- reduce
- Redus
- regiuni
- Lansări
- încredere
- Cerinţe
- rezervat
- resursă
- restabilirea
- rezultat
- REZULTATE
- Regula
- Alerga
- funcţionare
- acelaşi
- Economisiți
- scalabilitate
- scalabil
- Scară
- scenarii
- Ştiinţă
- perfect
- Secțiune
- sigur
- în siguranță,
- Căuta
- serviciu
- configurarea
- Distribuie
- partajarea
- să
- Arăta
- Emisiuni
- asemănător
- simplu
- Mărimea
- dimensiuni
- mai mici
- Instantaneu
- soluţie
- soluţii
- unele
- Sursă
- specific
- împărţi
- Loc
- standard
- Începe
- început
- Pornire
- Declarații
- Pas
- paşi
- Încă
- depozitare
- stoca
- Strategie
- de streaming
- ulterior
- livra
- lanțului de aprovizionare
- Optimizarea lanțului de aprovizionare
- a sustine
- dulce
- Lua
- Ţintă
- Tehnic
- Tehnologii
- test
- Testarea
- teste
- Sursa
- lor
- trei
- Prin
- timp
- la
- instrument
- Unelte
- Tipuri
- înţelegere
- utilizare
- carcasa de utilizare
- Utilizator
- Vid
- Ce
- care
- OMS
- voi
- fără
- de lucru
- fabrică
- Ta
- zephyrnet