Jak Cargotec wykorzystuje replikację metadanych, aby umożliwić udostępnianie danych między kontami

Opublikowane ponownie przez Plato

Obserwuje: 0

To jest wpis na blogu gościnnym, napisany wspólnie z Sumeshem M R z Cargotec i Tero Karttunenem z Knowit Finland.

Cargotec (Nasdaq Helsinki: CGCBV) to fińska firma specjalizująca się w rozwiązaniach i usługach w zakresie obsługi ładunków. Ich siedziba znajduje się w Helsinkach w Finlandii i działa globalnie w ponad 100 krajach. Dzięki wiodącym rozwiązaniom i usługom w zakresie obsługi ładunków są pionierami w swojej dziedzinie. Dzięki swojej wyjątkowej pozycji w portach, na morzu i na drogach optymalizują globalne przepływy ładunków i tworzą zrównoważoną wartość dla klienta.

Cargotec rejestruje terabajty danych telemetrycznych IoT ze swoich maszyn obsługiwanych przez wielu klientów na całym świecie. Dane te należy pozyskać do jeziora danych, przekształcić i udostępnić na potrzeby analiz, uczenia maszynowego (ML) i wizualizacji. W tym celu firma Cargotec zbudowała Usługa Amazon Simple Storage (Amazon S3) data Lake i skatalogowałem zasoby danych w AWS Glue Data Catalog. Oni wybrali Klej AWS jako preferowane narzędzie do integracji danych ze względu na bezserwerowy charakter, niskie koszty utrzymania, możliwość wcześniejszej kontroli zasobów obliczeniowych i skalowanie w razie potrzeby.

Na tym blogu omawiamy wyzwania techniczne stojące przed firmą Cargotec podczas replikowania metadanych kleju AWS na kontach AWS oraz to, jak pomyślnie poradziła sobie z tymi wyzwaniami, aby umożliwić udostępnianie danych między kontami. Dzieląc się ich historiami, mamy nadzieję zainspirować czytelników stojących przed podobnymi wyzwaniami i zapewnić wgląd w to, w jaki sposób można dostosować nasze usługi do Twoich konkretnych potrzeb.

Wyzwania

Podobnie jak wielu klientów, jezioro danych Cargotec jest rozproszone na wielu kontach AWS, których właścicielami są różne zespoły. Firma Cargotec chciała znaleźć rozwiązanie umożliwiające udostępnianie zbiorów danych między kontami i korzystanie z nich Amazonka Atena aby ich zapytać. Aby udostępnić zbiory danych, potrzebowali sposobu na współdzielenie dostępu do danych i dostępu do metadanych katalogu w postaci tabel i widoków. Przypadki użycia firmy Cargotec wymagały również utworzenia widoków obejmujących tabele i widoki obejmujące katalogi. Wdrożenie Cargotec obejmuje trzy osobne konta AWS, 25 baz danych, 150 tabel i 10 widoków.

Omówienie rozwiązania

Firma Cargotec potrzebowała jednego katalogu na konto, który zawierałby metadane z innych kont AWS. Rozwiązaniem, które najlepiej odpowiadało ich potrzebom, była replikacja metadanych przy użyciu wewnętrznej wersji publicznie dostępnego narzędzia o nazwie Narzędzie do migracji Metastore. Cargotec rozszerzył narzędzie, zmieniając ogólną warstwę orkiestracji, dodając plik Amazon SQS powiadomienie i AWS Lambda. Podejście polegało na programowym skopiowaniu i udostępnieniu każdej jednostki katalogu (baz danych, tabel i widoków) wszystkim kontom klientów. Dzięki temu tabele lub widoki są lokalne dla konta, na którym uruchamiane jest zapytanie, podczas gdy dane nadal pozostają w źródłowym zasobniku S3.

Architektura rozwiązań Cargotec

Poniższy diagram podsumowuje architekturę i ogólny przebieg wydarzeń w projekcie Cargotec.

Architektura rozwiązania

Wpisy katalogu z konta źródłowego są programowo replikowane na wiele kont docelowych, wykonując następującą serię kroków.

Zadanie AWS Glue (eksporter metadanych) jest uruchamiane codziennie na koncie źródłowym. Odczytuje informacje o tabeli i partycjach ze źródłowego katalogu danych kleju AWS. Ponieważ konto docelowe służy do celów analitycznych i nie wymaga zmian schematu w czasie rzeczywistym, eksporter metadanych uruchamia się tylko raz dziennie. Cargotec korzysta z projekcji przegród, co zapewnia dostępność nowych przegród w czasie rzeczywistym.
Następnie zadanie zapisuje metadane w zasobniku S3 na tym samym koncie. Należy pamiętać, że rozwiązanie nie obejmuje przenoszenia danych pomiędzy kontami. Konta docelowe odczytują dane z zasobników S3 konta źródłowego. Wskazówki dotyczące konfigurowania odpowiednich uprawnień można znaleźć w artykule Podręcznik użytkownika Amazon Athena.
Po zakończeniu eksportu metadanych zadanie AWS Glue przesyła powiadomienie do Usługa prostego powiadomienia Amazon (Amazon SNS) temat. Ta wiadomość zawiera ścieżkę S3 do najnowszego eksportu metadanych. Powiadomienie SNS to dostosowanie firmy Cargotec do istniejącego narzędzia typu open source.
Każde konto docelowe obsługuje AWS Lambda funkcja powiadamiająca, gdy temat SNS konta źródłowego otrzyma push. Krótko mówiąc, istnieje wiele funkcji Lambda abonenta (jedna na konto docelowe) dla tematów SNS konta źródłowego, które są wyzwalane po zakończeniu zadania eksportu.
Po uruchomieniu funkcja Lambda inicjuje zadanie AWS Glue (importer metadanych) na odpowiednim koncie docelowym. Zadanie otrzymuje jako dane wejściowe ścieżkę S3 konta źródłowego do metadanych, które zostały niedawno wyeksportowane.
Na podstawie podanej ścieżki importer metadanych odczytuje wyeksportowane metadane ze źródłowego zasobnika S3.
Osoba importująca metadane używa teraz tych informacji do tworzenia lub aktualizowania odpowiednich informacji katalogowych na koncie docelowym.

Wszystkie błędy są publikowane w osobnym temacie SNS w celu rejestrowania i monitorowania. Dzięki takiemu podejściu firma Cargotec była w stanie tworzyć i wykorzystywać widoki obejmujące tabele i widoki z wielu katalogów rozmieszczonych na różnych kontach AWS.

Realizacja

Trzon narzędzia do replikacji katalogów stanowią dwa skrypty AWS Glue:

Eksporter metadanych – Zadanie AWS Glue, które odczytuje katalog danych źródłowych i tworzy eksport baz danych, tabel i partycji w zasobniku S3 na koncie źródłowym.
Importer metadanych – Zadanie AWS Glue, które odczytuje eksport utworzony przez eksportera metadanych i stosuje metadane do docelowych baz danych. Ten kod jest wyzwalany przez funkcję Lambda po zapisaniu plików w S3. Zadanie jest uruchamiane na koncie docelowym.

Eksporter metadanych

Ta sekcja zawiera szczegółowe informacje na temat zadania kleju AWS, które eksportuje katalog danych kleju AWS do lokalizacji S3. Kod źródłowy aplikacji znajduje się na serwerze GitHub kleju AWS. Chociaż może zaistnieć potrzeba dostosowania tego do Twoich potrzeb, w tym blogu omówimy podstawowe komponenty kodu.

Dane wejściowe eksportera metadanych

Aplikacja przyjmuje kilka parametrów wejściowych zadania, jak opisano poniżej:

--mode klucz akceptuje oba to-s3 or to-jdbc. Ten ostatni jest używany, gdy kod przenosi metadane bezpośrednio do magazynu metadanych JDBC Hive. W przypadku Cargotec, ponieważ przenosimy metadane do plików na S3, wartość dla --mode pozostanie to-s3.
--output-path akceptuje lokalizację S3, w której powinny zostać zapisane wyeksportowane metadane. Kod tworzy podkatalogi odpowiadające bazom danych, tabelom i partycjom.
--database-names akceptuje rozdzieloną średnikami listę baz danych w katalogu źródłowym, które należy zreplikować do miejsca docelowego

Czytanie katalogu

Metadane dotyczące bazy danych, tabel i partycji są odczytywane z katalogu AWS Glue.

dyf = glue_context.create_dynamic_frame.from_options( connection_type=’com.amazonaws.services.glue.connections.DataCatalogConnection‘, connection_options = { 'catalog.name': ‘datacatalog’, 'catalog.database': database, 'catalog.region': region })

Powyższy fragment kodu odczytuje metadane do ramki DynamicFrame AWS Glue. Ramka jest następnie konwertowana na ramkę danych Spark. Jest filtrowany do poszczególnych ramek danych w zależności od tego, czy jest częścią bazy danych, tabeli czy partycji. Schemat jest dołączany do ramki danych przy użyciu jednego z poniższych sposobów:

DATACATALOG_DATABASE_SCHEMA = StructType([ StructField('items', ArrayType( DATACATALOG_DATABASE_ITEM_SCHEMA, False), True), StructField('type', StringType(), False) ])

DATACATALOG_TABLE_SCHEMA = StructType([ StructField('database', StringType(), False), StructField('type', StringType(), False), StructField('items', ArrayType(DATACATALOG_TABLE_ITEM_SCHEMA, False), True) ])

DATACATALOG_PARTITION_SCHEMA = StructType([ StructField('database', StringType(), False), StructField('table', StringType(), False), StructField('items', ArrayType(DATACATALOG_PARTITION_ITEM_SCHEMA, False), True), StructField('type', StringType(), False) ])

Aby uzyskać szczegółowe informacje na temat schematu poszczególnych pozycji, zobacz definicja schematu w GitHubie.

Utrwalanie metadanych

Po przekonwertowaniu na ramkę DataFrame ze schematem jest ona utrwalana w lokalizacji S3 oznaczonej parametrem ścieżka wyjściowa

databases.write.format('json').mode('overwrite').save(output_path + 'databases')
tables.write.format('json').mode('overwrite').save(output_path + 'tables')
partitions.write.format('json').mode('overwrite').save(output_path + 'partitions')

Badanie wyników

Przejdź do zasobnika S3 zawierającego lokalizację wyjściową. Metadane wyjściowe powinny być widoczne w formacie. Przykładowy eksport tabeli będzie wyglądał jak poniższy fragment kodu.

{ "database": "default", "type": "table", "item": { "createTime": "1651241372000", "lastAccessTime": "0", "owner": "spark", "retention": 0, "name": "an_example_table", "tableType": "EXTERNAL_TABLE", "parameters": { "totalSize": "2734148", "EXTERNAL": "TRUE", "last_commit_time_sync": "20220429140907", "spark.sql.sources.schema.part.0": "{redacted_schema}", "numFiles": "1", "transient_lastDdlTime": "1651241371", "spark.sql.sources.schema.numParts": "1", "spark.sql.sources.provider": "hudi" }, "partitionKeys": [], "storageDescriptor": { "inputFormat": "org.apache.hudi.hadoop.HoodieParquetInputFormat", "compressed": false, "storedAsSubDirectories": false, "location": "s3://redacted_bucket_name/table/an_example_table", "numberOfBuckets": -1, "outputFormat": "org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat", "bucketColumns": [], "columns": [{ "name": "_hoodie_commit_time", "type": "string" }, { "name": "_hoodie_commit_seqno", "type": "string" } ], "parameters": {}, "serdeInfo": { "serializationLibrary": "org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe", "parameters": { "hoodie.query.as.ro.table": "false", "path": "s3://redacted_bucket_name/table/an_example_table", "serialization.format": "1" } }, "skewedInfo": { "skewedColumnNames": [], "skewedColumnValueLocationMaps": {}, "skewedColumnValues": [] }, "sortColumns": [] } }
}

Po zakończeniu zadania eksportu wyjściowa ścieżka S3 zostanie przesłana do tematu SNS. Funkcja Lambda na koncie docelowym przetwarza ten komunikat i wywołuje zadanie importowania kleju AWS, przekazując lokalizację importu S3.

Importer metadanych

Zadanie importowania jest uruchamiane na koncie docelowym. Kod zadania jest dostępny na GitHub. Podobnie jak w przypadku eksportera, może być konieczne dostosowanie go do konkretnych wymagań, ale kod w niezmienionej postaci powinien działać w większości scenariuszy.

Dane wejściowe importera metadanych

Dane wejściowe do aplikacji są dostarczane jako parametry zadania. Poniżej znajduje się lista parametrów wykorzystywanych w procesie importu:

--mode klucz akceptuje oba from-s3 or from-jdbc. To drugie jest używane w przypadku migracji ze źródła JDBC do katalogu danych kleju AWS. W Cargotec metadane są już zapisane w Amazon S3, dlatego wartość tego klucza jest zawsze ustawiona na from-s3.
--region klucz akceptuje prawidłowy region AWS dla katalogu klejów AWS. Region docelowy jest określany za pomocą tego klucza.
--database-input-path klucz akceptuje ścieżkę do pliku zawierającego metadane bazy danych. To jest wynik poprzedniego zadania importu.
--table-input-path key akceptuje ścieżkę do pliku zawierającego metadane tabeli. To jest wynik poprzedniego zadania importu.
--partition-input-path key akceptuje ścieżkę do pliku zawierającego metadane partycji. To jest wynik poprzedniego zadania importu.

Czytanie metadanych

Metadane, jak omówiono wcześniej, to pliki na Amazon S3. Są one wczytywane do poszczególnych ramek danych iskry wraz z odpowiednimi informacjami o schemacie

databases = sql_context.read.json(path=db_input_dir, schema=METASTORE_DATABASE_SCHEMA)
tables = sql_context.read.json(path=tbl_input_dir, schema=METASTORE_TABLE_SCHEMA)
partitions = sql_context.read.json(path=parts_input_dir, schema=METASTORE_PARTITION_SCHEMA)

Ładowanie katalogu

Po odczytaniu ramek danych Spark są one konwertowane do AWS Glue DynamicFrame, a następnie ładowane do katalogu, jak pokazano w poniższym fragmencie.

glue_context.write_dynamic_frame.from_options( frame=dyf_databases, connection_type='catalog', connection_options={ 'catalog.name': datacatalog_name, 'catalog.region': region }
)
glue_context.write_dynamic_frame.from_options( frame=dyf_tables, connection_type='catalog', connection_options={ 'catalog.name': datacatalog_name, 'catalog.region': region }
)
glue_context.write_dynamic_frame.from_options( frame=dyf_partitions, connection_type='catalog', connection_options={ 'catalog.name': datacatalog_name, 'catalog.region': region }
)

Po zakończeniu zadania możesz wysłać zapytanie do docelowego katalogu kleju AWS, aby upewnić się, że tabele ze źródła zostały zsynchronizowane z miejscem docelowym. Aby wszystko było proste i łatwe w zarządzaniu, zamiast wdrażać mechanizm identyfikujący tabele zmieniające się w czasie, Cargotec aktualizuje informacje katalogowe wszystkich baz danych lub tabel skonfigurowanych w zadaniu eksportu.

rozważania

Chociaż konfiguracja ta sprawdza się skutecznie w przypadku bieżących wymagań biznesowych Cargotec, podejście to ma kilka wad, które przedstawiono poniżej:

Rozwiązanie wymaga kodu. Dostosowano istniejące narzędzie typu open source, aby móc publikować powiadomienia SNS po zakończeniu eksportu oraz funkcję Lambda uruchamiającą proces importu.
Proces eksportu na koncie źródłowym jest zadaniem zaplanowanym. Dlatego nie ma synchronizacji w czasie rzeczywistym między kontami źródłowymi i docelowymi. Nie był to wymóg w procesie biznesowym Cargotec.
W przypadku tabel, które nie korzystają z projekcji partycji Athena, wyniki zapytań mogą być nieaktualne do czasu dodania nowych partycji do metastore za pomocą MSCK REPAIR TABLE, ALTER TABLE ADD PARTITION, przeszukiwacza AWS Glue i tak dalej.
Obecne podejście wymaga synchronizowania wszystkich tabel w źródle i miejscu docelowym. Jeśli wymaganie polega na uwzględnieniu tylko tych, które uległy zmianie, zamiast zaplanowanego codziennego eksportu, projekt musi ulec zmianie i może skorzystać na Most zdarzeń Amazona integracja z klejem AWS. Przykładową implementację wykorzystania API AWS Glue do identyfikacji zmian pokazano w Zidentyfikuj zmiany schematu źródłowego za pomocą AWS Glue.

Wnioski

W tym poście na blogu omówiliśmy rozwiązanie umożliwiające udostępnianie danych i tabel między kontami, które umożliwia firmie Cargotec tworzenie widoków łączących dane z wielu kont AWS. Cieszymy się, że możemy podzielić się sukcesem Cargotec i wierzymy, że ten post dostarczył Ci cennych spostrzeżeń i inspiracji do własnych projektów.

Zachęcamy do zapoznania się z naszą ofertą usług i sprawdzenia, w jaki sposób mogą one pomóc w osiągnięciu Twoich celów. Na koniec, aby uzyskać więcej blogów poświęconych danym i analizom, możesz dodać je do zakładek Blog AWSs.

O autorach

Sumesh M. R jest architektem uczenia maszynowego Full Stack w firmie Cargotec. Ma kilkuletnie doświadczenie w inżynierii oprogramowania i ML. Sumesh jest ekspertem w zakresie Sagemaker i innych usług AWS ML/Analytics. Pasjonuje się analityką danych i uwielbia poznawać najnowsze biblioteki i techniki ML. Przed dołączeniem do Cargotec pracował jako architekt rozwiązań w TCS. W wolnym czasie uwielbia grać w krykieta i badmintona.

Tero Karttunena jest starszym architektem chmury w Knowit Finland. Doradza klientom w zakresie projektowania i wdrażania architektur danych, które najlepiej odpowiadają ich potrzebom w zakresie analityki danych i uczenia maszynowego. Od ponad dwóch lat pomaga firmie Cargotec w podróżowaniu po danych. Poza pracą lubi biegać, uprawiać sporty zimowe i gry RPG.

Arun AK jest architektem rozwiązań specjalistycznych Big Data w AWS. Współpracuje z klientami, aby zapewnić wskazówki architektoniczne dotyczące uruchamiania rozwiązań analitycznych na AWS Glue, AWS Lake Formation, Amazon Athena i Amazon EMR. W wolnym czasie lubi spędzać czas z przyjaciółmi i rodziną.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
EVM Finanse. Ujednolicony interfejs dla zdecentralizowanych finansów. Dostęp tutaj.
Quantum Media Group. Wzmocnienie IR/PR. Dostęp tutaj.
PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/big-data/how-cargotec-uses-metadata-replication-to-enable-cross-account-data-sharing/

Znak czasu: 7 czerwca 2023 r.

Znak czasu: Czerwiec 6, 2023

Opublikowane ponownie przez Plato

Przedstawiamy ulepszoną funkcjonalność zarządzania konfiguracją procesów roboczych w Amazon MSK Connect | Usługi internetowe Amazona

Nowe opcje wykresu punktowego w Amazon QuickSight do wizualizacji danych

Dostarczaj zdekompresowane dzienniki Amazon CloudWatch do Amazon S3 i Splunk za pomocą Amazon Data Firehose | Usługi internetowe Amazona

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto