Amazon RedShift ist ein schnelles, vollständig verwaltetes Cloud-Data-Warehouse, mit dem Sie alle Ihre Daten im Petabyte-Bereich einfach und kostengünstig analysieren können, indem Sie Standard-SQL und Ihre vorhandenen Business-Intelligence-Tools (BI) verwenden. Heute führen Zehntausende Kunden geschäftskritische Workloads auf Amazon Redshift aus.
Amazon Redshift ohne Server ermöglicht die mühelose Ausführung und Skalierung von Analyse-Workloads, ohne dass eine Data-Warehouse-Infrastruktur verwaltet werden muss.
Redshift Serverless stellt die Data-Warehouse-Kapazität automatisch bereit und skaliert sie intelligent, um selbst für die anspruchsvollsten und unvorhersehbarsten Arbeitslasten schnelle Leistung zu liefern, und Sie zahlen nur für das, was Sie nutzen.
Dies ist ideal, wenn es schwierig ist, den Rechenbedarf vorherzusagen, z. B. variable Arbeitslasten, periodische Arbeitslasten mit Leerlaufzeiten und stationäre Arbeitslasten mit Spitzen. Wenn sich Ihr Bedarf mit neuen Arbeitslasten und mehr gleichzeitigen Benutzern entwickelt, stellt Redshift Serverless automatisch die richtigen Rechenressourcen bereit und Ihr Data Warehouse skaliert nahtlos und automatisch.
Amazon Redshift-Datenfreigabe ermöglicht es Ihnen, transaktionskonsistente Live-Daten in einem Redshift-Data-Warehouse sicher mit einem anderen Redshift-Data-Warehouse (bereitgestellt oder serverlos) über Konten und Regionen hinweg zu teilen, ohne Daten von einem Data-Warehouse in ein anderes kopieren, replizieren oder verschieben zu müssen.
Mit der Datenfreigabe von Amazon Redshift können Sie Ihre Amazon Redshift-Bereitstellungsarchitekturen zu einem Hub-and-Spoke- oder Data-Mesh-Modell weiterentwickeln, um Leistungs-SLAs besser einzuhalten, Workload-Isolation bereitzustellen, gruppenübergreifende Analysen durchzuführen und neue Anwendungsfälle zu integrieren – und das alles ohne Komplexität von Datenbewegungen und Datenkopien.
In diesem Beitrag zeigen wir, wie Wallapop Redshift Serverless und Datenaustausch einführte, um seine Data-Warehouse-Architektur zu modernisieren.
Wallapops erste Datenarchitekturplattform
Wallapop ist ein spanisches E-Commerce-Marktplatzunternehmen, das sich auf gebrauchte Artikel konzentriert und 2013 gegründet wurde. Täglich erhalten sie rund 300,000 neue Artikel von Käufern, die ihrem Katalog hinzugefügt werden. Auf den Marktplatz kann über eine mobile App oder eine Website zugegriffen werden.
Der durchschnittliche monatliche Traffic beträgt rund 15 Millionen aktive Nutzer. Seit seiner Gründung im Jahr 2013 hat es mehr als 40 Millionen Downloads erreicht und mehr als 700 Millionen Produkte wurden gelistet.
Amazon Redshift spielt in seiner Datenplattform auf AWS eine zentrale Rolle für Aufnahme-, ETL- (Extrahieren, Transformieren und Laden), maschinelles Lernen (ML) und Verbrauchs-Workloads, die ihre Erkenntnisse nutzen, um die Entscheidungsfindung voranzutreiben.
Die anfängliche Architektur besteht aus einem von Redshift bereitgestellten Hauptcluster, der alle Arbeitslasten verarbeitet, wie im folgenden Diagramm dargestellt. Ihr Cluster wurde mit 8 Knoten ra3.4xlarge und bereitgestellt Parallelitätsskalierung aktiviert.
Wallapop musste in seiner ursprünglichen Datenarchitekturplattform drei Hauptbereiche verbessern:
- Herausforderungen bei der Workload-Isolation aufgrund wachsender Datenmengen und parallel laufender neuer Workloads
- Verwaltungsaufwand für Data-Engineering-Teams bei der Bewältigung der gleichzeitigen Arbeitslasten, insbesondere zu Spitzenzeiten
- Kosten-Leistungs-Verhältnis bei Skalierung in Spitzenzeiten
Die Verbesserungsbereiche konzentrierten sich hauptsächlich auf die Leistung von Datenverbrauchs-Workloads sowie auf das BI- und Analyseverbrauchstool, wo sich eine hohe Abfragegleichzeitigkeit auf die endgültige Analysevorbereitung und deren Erkenntnisseverbrauch auswirkte.
Lösungsüberblick
Um die Architektur seiner Datenplattform zu verbessern, hat Wallapop mit Unterstützung von AWS einen neuen verteilten Ansatz mit Amazon Redshift entworfen und aufgebaut.
Ihre Clustergröße des bereitgestellten Data Warehouse hat sich nicht geändert. Was sich geändert hat, war die Senkung der Skalierung der Nutzungsgleichzeitigkeit auf 1 Stunde, was im kostenlosen Nutzungskontingent für alle 24 Stunden der Nutzung des Hauptclusters gilt. Das folgende Diagramm veranschaulicht die Zielarchitektur.
Lösungsdetails
Die neue Datenplattformarchitektur kombiniert Redshift Serverless und bereitgestellte Data Warehouses mit der Datenfreigabe von Amazon Redshift und hilft Wallapop, sein gesamtes Amazon Redshift-Erlebnis durch verbesserte Benutzerfreundlichkeit, Leistung und optimierte Kosten zu verbessern.
Redshift Serverless misst die Data Warehouse-Kapazität in Redshift Processing Units (RPUs). RPUs sind Ressourcen, die zur Bewältigung von Arbeitslasten verwendet werden. Sie können die Grundkapazitätseinstellung in 8er-Einheiten (512, 8, 8 usw.) von 16 RPUs auf 24 RPUs anpassen.
Die neue Architektur verwendet einen von Redshift bereitgestellten Cluster mit RA3-Knoten, um ihre konstanten und Schreib-Workloads (Datenaufnahme- und Transformationsjobs) auszuführen. Auch Wallapop profitiert von der Kosteneffizienz Redshift reservierte Instanzen um die Kosten für diese bekannten, vorhersehbaren und stetigen Arbeitslasten zu optimieren. Dieser Cluster fungiert als Produzentencluster in seiner verteilten Architektur und nutzt die Datenfreigabe, was bedeutet, dass die Daten in die Speicherschicht von Amazon Redshift – Redshift Managed Storage (RMS) – aufgenommen werden.
Für den Verbrauchsteil der Datenplattformarchitektur werden die Daten mit verschiedenen Redshift Serverless-Endpunkten geteilt, um den Anforderungen verschiedener Verbrauchs-Workloads gerecht zu werden.
Die gemeinsame Nutzung von Daten ermöglicht die Isolierung von Arbeitslasten. Mit dieser Architektur erreicht Wallapop eine bessere Workload-Isolation und stellt sicher, dass nur die richtigen Daten mit den verschiedenen Verbrauchsanwendungen geteilt werden. Darüber hinaus vermeidet dieser Ansatz die Datenduplizierung im Verbraucherteil, was die Kosten optimiert und bessere Governance-Prozesse ermöglicht, da sie nur eine einzige Version der Data-Warehouse-Daten statt verschiedener Kopien oder Versionen davon verwalten müssen.
Redshift Serverless wird als Verbraucherteil der Datenplattformarchitektur verwendet, um vorhersehbare und unvorhersehbare, instabile und oft anspruchsvolle Analyse-Workloads zu bewältigen, wie z. B. ihre CI/CD-Jobs und BI- und Analytics-Verbrauchs-Workloads, die von ihrer Datenvisualisierungsanwendung ausgehen. Redshift Serverless hilft ihnen außerdem dabei, eine bessere Workload-Isolation zu erreichen, da die verwaltete automatische Skalierungsfunktion dafür sorgt, dass die Leistung auch bei Spitzenzeiten für diese unvorhersehbaren Workloads gleichbleibend gut ist. Dank der Autonomics-Funktionen, die Redshift Serverless bietet, bietet es dem Wallapop-Datenplattformteam auch eine bessere Benutzererfahrung.
Die neue Lösung, die Redshift Serverless und Datenfreigabe kombiniert, ermöglichte Wallapop eine bessere Leistung, Kosten und Benutzerfreundlichkeit.
Eduard Lopez, Wallapop Data Engineering Manager, teilte die verbesserte Erfahrung der Analysebenutzer mit: „Unsere Analystenbenutzer sagen uns, dass ‚Looker jetzt fliegt‘. Dadurch stieg der Insights-Verbrauch, ohne dass die Kosten stiegen.“
Bewertung des Ergebnisses
Wallapop begann mit dieser Neuarchitektur, indem es zunächst die Isolierung seiner BI-Verbrauchslast mit Amazon Redshift-Datenfreigabe und Redshift Serverless mit Unterstützung von AWS testete. Die Arbeitslast wurde mit verschiedenen Basis-RPU-Konfigurationen getestet, um die Basiskapazität und -ressourcen in Redshift Serverless zu messen. Die Basis-RPU-Bereiche für Redshift Serverless liegen zwischen 8 und 512. Wallapop testete seine BI-Workload mit zwei Konfigurationen: 32 Basis-RPU und 64 Basis-RPU, nachdem er die Datenfreigabe aus seinem von Redshift bereitgestellten Cluster aktiviert hatte, um sicherzustellen, dass die serverlosen Endpunkte Zugriff auf die erforderlichen Datensätze haben.
Basierend auf den Ergebnissen, die eine Woche vor dem Test gemessen wurden, waren die Abfragen, deren Abschluss länger als 1 Sekunden dauerte, der Hauptbereich für Verbesserungen (10 %), dargestellt durch die gelben, orangefarbenen und roten Bereiche des folgenden Diagramms, sowie die lang laufende Abfragen, dargestellt durch den roten Bereich (über 52 Sekunden, 600 %).
Der erste Test dieser Arbeitslast mit Redshift Serverless unter Verwendung einer 64-Basis-RPU-Konfiguration zeigte sofort Ergebnisse zur Leistungsverbesserung: Die Abfragen, die länger als 10 Sekunden ausgeführt wurden, wurden um 38 % reduziert und die Abfragen mit langer Laufzeit (über 120 Sekunden) wurden fast vollständig eliminiert.
Javier Carbajo, Wallapop Data Engineer, sagt: „Die Bereitstellung eines Dienstes ohne Ausfallzeiten oder zu lange Ladezeiten war eine unserer Hauptanforderungen, da wir keine Analysten oder Stakeholder haben konnten, ohne die Daten einsehen zu können.“
Nach den ersten Ergebnissen testete Wallapop auch eine Redshift Serverless-Konfiguration mit 32 Basis-RPUs, um die Ergebnisse zu vergleichen und die Konfiguration auszuwählen, die ihnen das beste Preis-Leistungs-Verhältnis für diese Arbeitslast bieten könnte. Mit dieser Konfiguration waren die Ergebnisse ähnlich wie beim vorherigen Testlauf auf Redshift Serverless mit 64 Basis-RPU (sie zeigten immer noch eine deutliche Leistungsverbesserung gegenüber den ursprünglichen Ergebnissen). Aufgrund der Tests wurde diese Konfiguration für die neue Architektur ausgewählt.
Gergely Kajtár, Wallapop Data Engineer, sagt: „Wir haben nach der Umstellung auf die neue Redshift-Architektur eine deutliche Steigerung der Stabilität der täglichen Arbeitsabläufe festgestellt.“
Nach diesem ersten Workload hat Wallapop seine verteilte Amazon Redshift-Architektur weiter ausgebaut, wobei CI/CD-Workloads auf einem separaten Redshift Serverless-Endpunkt ausgeführt werden und dabei die Datenfreigabe mit ihrem von Redshift bereitgestellten (RA3) Cluster nutzen.
„Mit der neuen Redshift-Architektur haben wir bemerkenswerte Verbesserungen sowohl bei der Geschwindigkeit als auch bei der Stabilität festgestellt. Dies hat zu einer Verdoppelung der analytischen Abfragen geführt, nicht nur von Analysten und Datenwissenschaftlern, sondern auch aus anderen Rollen wie Marketing, Technik, C-Level usw. Das beweist, dass die Investition in eine skalierbare Architektur wie Redshift Serverless erfolgreich war eine direkte Konsequenz für die beschleunigte Einführung von Daten als Entscheidungstreiber in der Organisation.“
– Nicolás Herrero, Wallapop-Direktor für Daten und Analysen.
Zusammenfassung
In diesem Beitrag haben wir Ihnen gezeigt, wie diese Plattform Wallapop dabei helfen kann, in Zukunft zu skalieren, indem sie neue Verbraucher hinzufügt, wenn neue Anforderungen oder Anwendungen den Zugriff auf Daten erfordern.
Wenn Sie neu bei Amazon Redshift sind, können Sie Demos, andere Kundenberichte und die neuesten Funktionen unter erkunden Amazon RedShift. Wenn Sie Amazon Redshift bereits verwenden, wenden Sie sich an Ihr AWS-Kontoteam, um Unterstützung zu erhalten und mehr darüber zu erfahren Was ist neu bei Amazon Redshift?.
Über die Autoren
Eduard Lopez ist Data Engineer Manager bei Wallapop. Er ist ein Softwareentwickler mit über 6 Jahren Erfahrung in den Bereichen Datentechnik, maschinelles Lernen und Datenwissenschaft.
Daniel Martinez ist Lösungsarchitekt bei Iberia Digital Native Businesses (DNB), Teil der weltweiten kommerziellen Vertriebsorganisation (WWCS) bei AWS.
Jordi Montoliu ist Sr. Redshift Specialist in EMEA, Teil der weltweiten Fachorganisation (WWSO) bei AWS.
Ziad Wali ist Acceleration Lab Solutions Architect bei Amazon Web Services. Er verfügt über mehr als 10 Jahre Erfahrung in den Bereichen Datenbanken und Data Warehousing, wo es ihm Spaß macht, zuverlässige, skalierbare und effiziente Lösungen zu entwickeln. Außerhalb der Arbeit treibt er gerne Sport und verbringt Zeit in der Natur.
Semir Naffati ist Sr. Redshift Specialist Solutions Architect in EMEA, Teil der weltweiten Spezialorganisation (WWSO) bei AWS.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/big-data/how-wallapop-improved-performance-of-analytics-workloads-with-amazon-redshift-serverless-and-data-sharing/
- :hast
- :Ist
- :nicht
- :Wo
- $UP
- 000
- 1
- 10
- 100
- 120
- 15%
- 150
- 16
- 173
- 2013
- 24
- 300
- 32
- 40
- 700
- 8
- 990
- a
- Fähig
- Über Uns
- beschleunigend
- Beschleunigung
- Zugang
- Zugriff
- Konto
- Trading Konten
- Erreichen
- Erreicht
- über
- aktiv
- Handlungen
- hinzugefügt
- Hinzufügen
- zusätzlich
- einstellen
- angenommen
- Adoption
- Nach der
- Alle
- erlaubt
- erlaubt
- fast
- entlang
- bereits
- ebenfalls
- Amazon
- Amazon Web Services
- an
- Analytiker
- Business Analysten
- Analytische
- Analytik
- analysieren
- und
- Ein anderer
- jedem
- App
- Anwendung
- Anwendungen
- Ansatz
- Architektur
- SIND
- Bereich
- Bereiche
- um
- AS
- At
- Auto
- Im Prinzip so, wie Sie es von Google Maps kennen.
- durchschnittlich
- AWS
- Base
- basierend
- BE
- weil
- war
- Bevor
- Sein
- profitieren
- BESTE
- Besser
- beide
- Building
- erbaut
- Last
- Geschäft
- Business Intelligence
- Unternehmen
- aber
- Käufer
- by
- CAN
- Fähigkeiten
- Kapazität
- Fälle
- Katalog
- Hauptgeschäftsstelle
- Herausforderungen
- Übernehmen
- geändert
- Chart
- Cloud
- Cluster
- vereint
- Vereinigung
- Kommen
- kommerziell
- Unternehmen
- vergleichen
- abschließen
- uneingeschränkt
- Komplexität
- zusammengesetzt
- Berechnen
- Wettbewerber
- Konfiguration
- Konfigurationen
- konsistent
- konsequent
- konstante
- Verbraucher
- KUNDEN
- Verbrauch
- weiter
- Kopien
- Kosten
- kostengünstiger
- Kosten
- könnte
- Schaffung
- Kunde
- Kunden
- Unterricht
- technische Daten
- Dateningenieur
- Datenplattform
- Datenwissenschaft
- Datenübertragung
- Datenvisualisierung
- Data Warehouse
- Data Warehouse
- Datenbanken
- Datensätze
- Tag
- Decision Making
- Übergeben
- Demand
- anspruchsvoll
- Demos
- Einsatz
- Einsatz
- entworfen
- anders
- schwer
- digital
- Direkt
- Direktor
- verteilt
- DNB
- Downloads
- Ausfallzeit
- Antrieb
- Fahrer
- zwei
- im
- erleichtern
- Benutzerfreundlichkeit
- E-EINKAUF
- effizient
- Anstrengung
- mühelos
- eliminiert
- EMEA
- freigegeben
- ermöglicht
- ermöglichen
- Endpunkt
- Endpunkte
- Ingenieur
- Entwicklung
- gewährleisten
- sorgt
- insbesondere
- etc
- Äther (ETH)
- Sogar
- Jedes
- jeden Tag
- entwickelt sich
- entwickelt sich
- vorhandenen
- Ausbau
- ERFAHRUNGEN
- ERKUNDEN
- Extrakt
- FAST
- Merkmal
- Eigenschaften
- Finale
- Vorname
- konzentriert
- Folgende
- Aussichten für
- Gründung
- Frei
- für
- voll
- Zukunft
- gut
- Governance
- persönlichem Wachstum
- hätten
- Griff
- behandelt
- Haben
- mit
- he
- Hilfe
- Unternehmen
- hilft
- GUTE
- Stunde
- STUNDEN
- Ultraschall
- HTML
- http
- HTTPS
- ideal
- Leerlauf
- if
- zeigt
- sofort
- Auswirkungen
- zu unterstützen,
- verbessert
- Verbesserung
- Verbesserungen
- in
- Erhöhung
- zunehmend
- Infrastruktur
- Anfangs-
- Einblick
- Einblicke
- beantragen müssen
- Intelligenz
- in
- Investitionen
- Isolierung
- IT
- Artikel
- SEINE
- Jobs
- jpg
- bekannt
- Labor
- neueste
- Schicht
- LERNEN
- lernen
- Gefällt mir
- Gelistet
- leben
- Belastung
- Laden
- Lang
- länger
- Senkung
- Maschine
- Maschinelles Lernen
- Main
- hauptsächlich
- MACHT
- verwalten
- verwaltet
- Manager
- Marketing
- Marktplatz
- Bedeutung
- messen
- gemessen
- Maßnahmen
- Triff
- ineinander greifen
- Million
- ML
- Mobil
- App
- Modell
- modernisieren
- monatlich
- mehr
- vor allem warme
- schlauer bewegen
- Bewegung
- nativen
- Natur
- notwendig,
- benötigen
- Bedürfnisse
- Neu
- neue Lösung
- Fiber Node
- jetzt an
- of
- bieten
- vorgenommen,
- on
- Onboard
- EINEM
- einzige
- Optimieren
- optimiert
- Verbessert
- or
- Orange
- Organisation
- Original
- Andere
- UNSERE
- aussen
- übrig
- Gesamt-
- Teil
- AUFMERKSAMKEIT
- Haupt
- ausführen
- Leistung
- periodisch
- Petabyte
- Plattform
- Plato
- Datenintelligenz von Plato
- PlatoData
- spielt
- Post
- vorhersagen
- Vorhersagbar
- Vorbereitung
- vorher
- anpassen
- Verarbeitung
- Hersteller
- Produkte
- Beweist
- die
- bietet
- Abfragen
- Angebot
- Bereiche
- Verhältnis
- erreichen
- erreicht
- erhalten
- Rot
- Reduziert
- Regionen
- zuverlässig
- bemerkenswert
- vertreten
- erfordern
- Voraussetzungen:
- reserviert
- Downloads
- Folge
- Die Ergebnisse
- Recht
- Rollen
- Rollen
- Führen Sie
- Laufen
- Vertrieb
- sagt
- skalierbaren
- Skalieren
- Waage
- Skalierung
- Wissenschaft
- Wissenschaftler
- nahtlos
- Sekunden
- sicher
- ausgewählt
- Serverlos
- Lösungen
- kompensieren
- Einstellung
- Teilen
- von Locals geführtes
- ,,teilen"
- erklären
- zeigte
- zeigt
- signifikant
- ähnlich
- da
- Single
- Größe
- So
- Software
- Software IngenieurIn
- Lösung
- Lösungen
- Spanisch
- Spezialist
- Geschwindigkeit
- Ausgabe
- Spikes
- Sports
- SQL
- Stabilität
- Stakeholder
- Standard
- begonnen
- stetig
- Immer noch
- Lagerung
- Geschichten
- einfach
- so
- Support
- sicher
- Target
- Team
- Teams
- erzählen
- Zehn
- Test
- Testlauf
- getestet
- Testen
- Tests
- als
- dank
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- Die Zukunft
- ihr
- Sie
- Diese
- vom Nutzer definierten
- fehlen uns die Worte.
- diejenigen
- Tausende
- nach drei
- Tier
- Zeit
- mal
- zu
- heute
- auch
- nahm
- Werkzeug
- Werkzeuge
- der Verkehr
- Transformieren
- Transformation
- übersetzt
- XNUMX
- Bereiche
- unberechenbar
- us
- Anwendungsbereich
- -
- benutzt
- Mitglied
- Benutzererfahrung
- Nutzer
- verwendet
- Verwendung von
- Variable
- Version
- Versionen
- Visualisierung
- Volumen
- Warehouse
- Lagerung
- wurde
- we
- Netz
- Web-Services
- Webseite
- Woche
- GUT
- ging
- waren
- Was
- wann
- welche
- während
- mit
- ohne
- Arbeiten
- Das weltweit
- schreiben
- Jahr
- gelben
- U
- Ihr
- Zephyrnet