Улучшите наблюдаемость задач Amazon MWAA

Переиздано Платоном

Читают: 0

Amazon Managed Workflows для Apache Airflow (Amazon MWAA) — это управляемая служба оркестрации для Воздушный поток Apache это упрощает настройку и эксплуатацию сквозных конвейеров данных в облаке в любом масштабе. Конвейер данных — это набор задач и процессов, используемых для автоматизации перемещения и преобразования данных между различными системами. Сообщество с открытым исходным кодом Apache Airflow предоставляет более 1,000 предварительно созданных операторов (плагинов, упрощающих подключение к службам) для Apache Airflow для создания конвейеров данных. Пакет провайдера Amazon для Apache Airflow поставляется с интеграцией для более чем 31 сервиса AWS, таких как Простой сервис хранения Amazon (Амазон С3), Амазонка Redshift, Амазонка ЭМИ, Клей AWS, Создатель мудреца АмазонкиИ многое другое.

Наиболее распространенным вариантом использования Airflow является ETL (извлечение, преобразование и загрузка). Почти все пользователи Airflow реализуют конвейеры ETL, начиная от простых и заканчивая сложными. Оперативное машинное обучение (ML) — еще один растущий вариант использования, когда данные должны быть преобразованы и нормализованы, прежде чем их можно будет загрузить в модель ML. В обоих случаях конвейер данных подготавливает данные к потреблению, получая данные из разных источников и преобразовывая их с помощью ряда шагов.

Наблюдение за различными процессами в конвейере данных является ключевым компонентом для отслеживания успеха или неудачи конвейера. Хотя планирование выполнения задач в конвейере данных контролируется Airflow, выполнение самой задачи (преобразование, нормализация и агрегирование данных) выполняется различными службами в зависимости от варианта использования. Наличие сквозного представления потока данных является проблемой из-за множества точек соприкосновения в конвейере данных.

В этом посте мы представляем обзор улучшений ведения журналов при работе с Amazon MWAA, который является одним из столпов наблюдаемости. Затем мы обсудим решение для дальнейшего повышения сквозной наблюдаемости путем изменения определений задач, составляющих конвейер данных. В этом посте мы сосредоточимся на определениях задач для двух сервисов: AWS Glue и Amazon EMR, однако один и тот же метод можно применять в разных сервисах.

Вызов

Конвейеры данных многих клиентов начинаются с простого, организуя несколько задач, и со временем становятся более сложными, состоящими из большого количества задач и зависимостей между ними. По мере увеличения сложности становится все труднее работать и отлаживать в случае сбоя, что создает потребность в единой панели управления для обеспечения сквозной оркестровки конвейера данных и управления работоспособностью. Для оркестровки конвейера данных Пользовательский интерфейс Apache Airflow — это удобный инструмент, который обеспечивает подробное представление вашего конвейера данных. Когда дело доходит до управления работоспособностью конвейера, каждая служба, с которой взаимодействуют ваши задачи, может хранить или публиковать журналы в разных местах, например в корзине S3 или Amazon CloudWatch журналы. По мере увеличения количества точек соприкосновения с интеграцией объединение распределенных журналов, созданных различными службами в разных местах, может стать сложной задачей.

Одно решение, предоставляемое Amazon MWAA, для консолидации журналов Airflow и задач в ориентированный ациклический граф (DAG) заключается в том, чтобы пересылать журналы на Группы журналов CloudWatch. Для каждой включенной опции ведения журнала Airflow создается отдельная группа журналов (например, DAGProcessing, Scheduler, Task, WebServerи Worker). Эти журналы можно запрашивать через группы журналов. с помощью CloudWatch Logs Insights.

Обычный подход к распределенной трассировке заключается в использовании идентификатора корреляции для объединения и запроса распределенных журналов. Идентификатор корреляции — это уникальный идентификатор, который передается через поток запросов для отслеживания последовательности действий на протяжении всего жизненного цикла рабочего процесса. Когда каждой службе в рабочем процессе необходимо регистрировать информацию, она может включать этот идентификатор корреляции, тем самым гарантируя, что вы сможете отслеживать полный запрос от начала до конца.

Двигатель Airflow проходит несколько переменные по умолчанию доступны для всех шаблонов. run_id — одна из таких переменных, которая является уникальным идентификатором для запуска DAG. run_id можно использовать в качестве идентификатора корреляции для запросов к различным группам журналов в CloudWatch для сбора всех журналов для определенного запуска DAG.

Однако имейте в виду, что службы, с которыми взаимодействуют ваши задачи, будут использовать отдельную группу журналов и не будут регистрировать run_id как часть их продукции. Это не позволит вам получить сквозное представление о выполнении DAG.

Например, если ваш конвейер данных состоит из задачи AWS Glue, выполняющей задание Spark как часть конвейера, то журналы задач Airflow будут доступны в одной группе журналов CloudWatch, а журналы заданий AWS Glue — в другой группе журналов CloudWatch. . Однако задание Spark, которое выполняется как часть задания AWS Glue, не имеет доступа к идентификатору корреляции и не может быть привязано к конкретному запуску DAG. Таким образом, даже если вы используете идентификатор корреляции для запроса различных групп журналов CloudWatch, вы не получите никакой информации о выполнении задания Spark.

Обзор решения

Как вы теперь знаете, run_id — это переменная, которая является уникальным идентификатором для запуска DAG. run_id присутствует как часть журналов задач Airflow. Чтобы использовать run_id эффективно и повышать наблюдаемость при прогоне DAG, мы используем run_id в качестве идентификатора корреляции и передавать его различным задачам с помощью DAG. Затем идентификатор корреляции используется сценариями, используемыми в задачах.

Следующая диаграмма иллюстрирует архитектуру решения.

Диаграмма архитектуры

Конвейер данных, на котором мы сосредоточимся, состоит из следующих компонентов:

Ведро S3, содержащее исходные данные.
An AWS Glue Crawler который создает метаданные таблицы в каталоге данных из исходных данных
An AWS Glue работа который преобразует необработанные данные в формат обработанных данных при выполнении преобразования формата файла
An работа ЭМИ который генерирует отчетные наборы данных

Подробные сведения об архитектуре и полные шаги по запуску группы обеспечения доступности баз данных см. Семинар по Amazon MWAA для аналитики.

В следующих разделах мы рассмотрим следующие темы:

Файл DAG, чтобы понять, как определить, а затем передать идентификатор корреляции в задачах AWS Glue и EMR.
Код, необходимый в сценариях Python для вывода информации на основе идентификатора корреляции.

См. Репо GitHub для подробного определения DAG и сценариев Spark. Для запуска скриптов см. Семинар по аналитике Amazon MWAA.

Определения группы обеспечения доступности баз данных

В этом разделе мы рассмотрим фрагменты дополнений, необходимых для файла DAG. Мы также обсудим, как передать идентификатор корреляции заданиям AWS Glue и EMR. Обратитесь к Репо GitHub для полного кода DAG.

Файл DAG начинается с определения переменных:

# Переменные

correlation_id = “{{ run_id }}” dag_name = “data_pipeline” S3_BUCKET_NAME = “airflow_data_pipeline_bucket”

Далее рассмотрим, как передать идентификатор корреляции в задание AWS Glue с помощью оператора AWS Glue. Операторы являются строительными блоками групп доступности баз данных Airflow. Они содержат логику обработки данных в конвейере данных. Каждая задача в DAG определяется созданием экземпляра оператора.

Airflow предоставляет операторам различные задачи. Для этого поста мы используем Оператор клея AWS.

Определение задачи AWS Glue содержит следующее:

Сценарий задания Python Spark (raw_to_transform.py) для запуска задания
Имя DAG, идентификатор задачи и идентификатор корреляции, которые передаются в качестве аргументов.
Ассоциация Роль сервиса AWS Glue назначенный, у которого есть разрешения на запуск искателя и заданий

Смотрите следующий код:

# Определение задачи склеивания

glue_task = AwsGlueJobOperator( task_id=’glue_task’, job_name=’raw_to_transform’, iam_role_name=’AWSGlueServiceRoleDefault’, script_args={‘--dag_name’: dag_name, ‘--task_id’: ‘glue_task’, ‘--correlation_id’: correlation_id},
)

Затем мы передаем идентификатор корреляции в задание EMR, используя оператор ЭМИ. Это включает следующие шаги:

Определите конфигурацию кластера EMR.
Создайте кластер EMR.
Определите шаги, которые должны выполняться заданием EMR.
Запустите задание EMR:
1. Мы используем скрипт задания Python Spark агрегации.py.
2. Мы передаем имя DAG, идентификатор задачи и идентификатор корреляции в качестве аргументов шагов для задачи EMR.

Начнем с определения конфигурации кластера EMR. correlation_id передается в имени кластера, чтобы легко идентифицировать кластер, соответствующий запуску DAG. Журналы, созданные заданиями EMR, публикуются в корзине S3; в correlation_id является частью LogUri также. См. следующий код:

# Определить конфигурацию кластера EMR

emr_task_id=’create_emr_cluster’
JOB_FLOW_OVERRIDES = { "Name": dag_name + "." + emr_task_id + "-" + correlation_id, "ReleaseLabel": "emr-5.29.0", "LogUri": "s3://{}/logs/emr/{}/{}/{}".format(S3_BUCKET_NAME, dag_name, emr_task_id, correlation_id), "Instances": { "InstanceGroups": [{ "Name": "Master nodes", "Market": "ON_DEMAND", "InstanceRole": "MASTER", "InstanceType": "m5.xlarge", "InstanceCount": 1 },{ "Name": "Slave nodes", "Market": "ON_DEMAND", "InstanceRole": "CORE", "InstanceType": "m5.xlarge", "InstanceCount": 2 }], "TerminationProtected": False, "KeepJobFlowAliveWhenNoSteps": True
}}

Теперь определим задачу по созданию кластера EMR на основе конфигурации:

# Создаем кластер EMR

cluster_creator = EmrCreateJobFlowOperator( task_id= emr_task_id, job_flow_overrides=JOB_FLOW_OVERRIDES, aws_conn_id=’aws_default’, emr_conn_id=’emr_default’, dag=dag
)

Далее давайте определим шаги, необходимые для выполнения в рамках задания EMR. Входные и выходные данные, обрабатываемые заданием EMR, хранятся в сегменте S3, который передается в качестве аргументов. Dag_name, task_idи correlation_id также передаются в качестве аргументов. Используемый task_id может быть именем по вашему выбору; здесь мы используем add_steps:

# шаги EMR, которые должны быть выполнены кластером EMR

SPARK_TEST_STEPS = [{ 'Name': 'Run Spark', 'ActionOnFailure': 'CANCEL_AND_WAIT', 'HadoopJarStep': { 'Jar': 'command-runner.jar', 'Args': ['spark-submit', '/home/hadoop/aggregations.py', 's3://{}/data/transformed/green'.format(S3_BUCKET_NAME), 's3://{}/data/aggregated/green'.format(S3_BUCKET_NAME), dag_name, 'add_steps', correlation_id]
}]

Далее добавим задачу для выполнения шагов в кластере EMR. job_flow_id это идентификатор JobFlow, который передается из EMR create task описано ранее с использованием XComs с воздушным потоком, Смотрите следующий код:

# Запустить задание EMR

step_adder = EmrAddStepsOperator( task_id='add_steps', job_flow_id="{{ task_instance.xcom_pull('create_emr_cluster', key='return_value') }}", aws_conn_id='aws_default', steps=SPARK_TEST_STEPS,
)

Это завершает шаги, необходимые для передачи идентификатора корреляции в определении задачи DAG.

В следующем разделе мы используем этот идентификатор в скрипте для регистрации подробностей.

Определения сценария работы

В этом разделе мы рассмотрим изменения, необходимые для регистрации информации на основе correlation_id. Начнем со сценария задания AWS Glue (полный код см. файл в Гитхабе):

# Скрипт изменяет файл 'raw_to_transform'

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME','dag_name','task_id','correlation_id']) sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
logger = glueContext.get_logger()
correlation_id = args['dag_name'] + "." + args['task_id'] + " " + args['correlation_id']
logger.info("Correlation ID from GLUE job: " + correlation_id)

Далее мы сосредоточимся на сценарии задания EMR (полный код см. файл в Гитхабе):

# Скрипт изменяет файл 'nyc_aggregations'

from __future__ import print_function
import sys
from pyspark.sql import SparkSession
from pyspark.sql.functions import sum if __name__ == "__main__": if len(sys.argv) != 6: print(""" Usage: nyc_aggregations.py <s3_input_path> <s3_output_path> <dag_name> <task_id> <correlation_id> """, file=sys.stderr) sys.exit(-1) input_path = sys.argv[1] output_path = sys.argv[2] dag_task_name = sys.argv[3] + "." + sys.argv[4] correlation_id = dag_task_name + " " + sys.argv[5] spark = SparkSession .builder .appName(correlation_id) .getOrCreate() sc = spark.sparkContext log4jLogger = sc._jvm.org.apache.log4j logger = log4jLogger.LogManager.getLogger(dag_task_name) logger.info("Spark session started: " + correlation_id)

На этом шаги по передаче идентификатора корреляции в запуск скрипта завершены.

После того, как мы завершим определения DAG и добавим скрипты, мы можем запустить DAG. Журналы для конкретного запуска DAG можно запрашивать с помощью идентификатора корреляции. Идентификатор корреляции для запуска DAG можно найти с помощью Интерфейс воздушного потока. Пример идентификатора корреляции: manual__2022-07-12T00:22:36.111190+00:00. С помощью этой уникальной строки мы можем выполнять запросы к соответствующим группам журналов CloudWatch с помощью CloudWatch Logs Insights. Результат запроса включает журнал, предоставленный сценариями AWS Glue и EMR, а также другие журналы, связанные с идентификатором корреляции.

Пример запроса для журналов уровня DAG: manual__2022-07-12T00:22:36.111190+00:00

Мы также можем получить журналы уровня задачи, используя формат <dag_name.task_id correlation_id>:

Пример запроса: data_pipeline.glue_task manual__2022-07-12T00:22:36.111190+00:00

Убирать

Если вы создали установку для запуска и тестирования скриптов с помощью Семинар по аналитике Amazon MWAA, выполните уборка шаги, чтобы избежать обвинений.

Заключение

В этом посте мы показали, как отправлять журналы Amazon MWAA в группы журналов CloudWatch. Затем мы обсудили, как связать журналы разных задач в группе обеспечения доступности баз данных с помощью уникального идентификатора корреляции. Идентификатор корреляции может быть выведен с любым количеством информации, необходимой для вашего задания, чтобы предоставить более подробную информацию по всему вашему запуску DAG. Затем вы можете использовать CloudWatch Logs Insights для запроса журналов.

Благодаря этому решению вы можете использовать Amazon MWAA как единую панель управления конвейером данных и журналы CloudWatch для управления состоянием конвейера данных. Уникальный идентификатор улучшает сквозную наблюдаемость выполнения группы обеспечения доступности баз данных и помогает сократить время, необходимое для устранения неполадок.

Чтобы узнать больше и получить практический опыт, начните с Семинар по аналитике Amazon MWAA а затем использовать сценарии в Репо GitHub чтобы получить больше наблюдаемости вашего запуска DAG.

Об авторе

Паял Сингх является архитектором партнерских решений в Amazon Web Services, специализирующимся на бессерверной платформе. Она отвечает за помощь партнерам и клиентам в модернизации и переносе их приложений на AWS.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/big-data/improve-observability-across-amazon-mwaa-tasks/

Отметка времени: 6 февраля 2023

Улучшите наблюдаемость задач Amazon MWAA

Переиздано Платоном

Вызов

Обзор решения

Определения группы обеспечения доступности баз данных

Определения сценария работы

Убирать

Заключение

Об авторе

Больше от AWS Большие данные

Оптимизация Apache Iceberg: решение проблемы небольших файлов в Amazon EMR | Веб-сервисы Amazon

Автоматизируйте репликацию реляционных источников в озеро транзакционных данных с помощью Apache Iceberg и AWS Glue.

Мощные сводные таблицы в Amazon QuickSight

Объяснение возможностей векторной базы данных Amazon OpenSearch Service | Веб-сервисы Амазонки

Настройте федерацию SAML для Amazon OpenSearch Serverless с помощью AWS IAM Identity Center

Представляем бессерверный пользовательский интерфейс AWS Glue Spark для лучшего мониторинга и устранения неполадок | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись