Клей AWS це безсерверна служба інтеграції даних, яка спрощує пошук, підготовку та поєднання даних для аналітики, машинного навчання (ML) і розробки програм. Ви можете використовувати AWS Glue для створення, запуску та моніторингу інтеграції даних і конвеєрів ETL (вилучення, перетворення та завантаження), а також каталогізації ваших активів у кількох сховищах даних.
Сотні тисяч клієнтів використовують озера даних для аналітики та машинного навчання, щоб приймати бізнес-рішення на основі даних. Споживачі даних втрачають довіру до даних, якщо вони не точні та свіжі, що робить якість даних важливою для прийняття оптимальних і правильних рішень.
Оцінка точності та свіжості даних є звичайним завданням інженерів. На даний момент існують різні інструменти для оцінки якості даних. Однак ці інструменти часто вимагають ручних процесів виявлення даних і досвіду розробки даних і кодування.
Ми раді повідомити про запуск публічної попередньої версії AWS Glue Data Quality. Ви можете отримати доступ до цієї функції сьогодні, не вимагаючи додаткового доступу в доступні регіони. Якість даних AWS Glue — це нова функція попереднього перегляду AWS Glue, яка вимірює та контролює якість даних озер даних на основі Amazon S3 і завдань AWS Glue ETL. Це не вимагає жодних знань у розробці даних або кодуванні. Це спрощує ваш досвід моніторингу та оцінки якості ваших даних.
Це перша частина серії публікацій із чотирьох частин, які пояснюють, як працює AWS Glue Data Quality. Перегляньте наступні публікації в серії:
У цій публікації ми розповімо про простоту використання функції AWS Glue Data Quality:
- Початкові рекомендації щодо якості даних і робота з вашими даними в каталозі даних AWS Glue.
- Створення будильника Amazon CloudWatch для отримання сповіщень, коли результати якості даних нижчі за певний порог.
- Аналіз результатів виконання AWS Glue Data Quality через Amazon Athena.
Налаштуйте ресурси за допомогою AWS CloudFormation
Наданий сценарій CloudFormation створює для вас такі ресурси:
- Роль IAM, необхідна для запуску якості даних AWS Glue
- Відро Amazon Simple Storage Service (Amazon S3) для зберігання набору даних NYC Taxi
- Відро S3 для зберігання та аналізу результатів виконання AWS Glue Data Quality
- База даних і таблиця AWS Glue, створена з набору даних NYC Taxi
заходи:
- Відкрийте консоль AWS CloudFormation.
- Вибирати Створити стек а потім виберіть З новими ресурсами (стандарт).
- для Джерело шаблонувиберіть Завантажте файл шаблонуі надайте прикріплений вище файл шаблону. Тоді вибирайте МАЙБУТНІ.
- для Назва стека, DataQualityDatabase та DataQualityTable, залишити за замовчуванням. для DataQualityS3BucketName, введіть назву свого відра S3. Тоді вибирайте МАЙБУТНІ.
- На останньому екрані переконайтеся, що ви підтвердили, що цей стек створить для вас ресурси IAM, і виберіть Надіслати.
- Після успішного створення стека перейдіть до сегмента S3, створеного стеком, і завантажте yellow_tripdata_2022-01.паркет файлу.
Розпочніть перевірку якості даних AWS Glue на своїх даних у каталозі даних AWS Glue
У цьому першому розділі ми створимо рекомендації щодо правил якості даних від служби AWS Glue Data Quality. Використовуючи ці рекомендації, ми запустимо завдання якості даних для нашого набору даних, щоб отримати аналіз наших даних.
Щоб почати, виконайте такі дії:
- Відкрийте консоль AWS Glue.
- Вибирати таблиці при Каталог даних.
- Виберіть DataQualityTable таблицю, створену за допомогою стека CloudFormation.
- Виберіть Якість даних Вкладка.
- Вибирати Рекомендуйте набір правил.
- на Рекомендуйте правила якості даних сторінка, перевірити Збережіть рекомендовані правила як набір правил. Це дозволить нам автоматично зберігати рекомендовані правила в наборі правил для використання в наступних кроках.
- для Роль IAMвиберіть роль IAM, створену зі стеку CloudFormation.
- для Додаткові конфігурації - за бажанням, залиште стандартну кількість працівників і час очікування.
- Вибирати Рекомендуйте набір правил. Це почне виконання рекомендацій щодо якості даних із заданою кількістю працівників.
- Зачекайте, поки набір правил буде завершено.
- Завершивши, поверніться до Набори правил вкладка. Ви повинні побачити успішний запуск рекомендацій і створений набір правил.
Зрозумійте рекомендації AWS Glue Data Quality
Рекомендації щодо якості даних AWS Glue – це пропозиції, створені службою якості даних AWS Glue, які базуються на формі ваших даних. Ці рекомендації автоматично враховують такі аспекти ваших даних, як кількість рядків, середнє значення, стандартне відхилення тощо, і генерують набір правил, які ви можете використовувати як відправну точку.
Тут використано набір даних NYC Taxi. На основі цього, стовпців у цьому наборі даних і значень цих стовпців AWS Glue Data Quality рекомендує набір правил. Загалом сервіс рекомендацій автоматично взяв до уваги всі стовпці набору даних і рекомендував 55 правил.
Деякі з цих правил:
- «RowCount між <> і <>» → Очікуйте підрахунок кількості рядків на основі даних, які він побачив
- «ColumnValues «VendorID» у [ ] → Очікуйте, що стовпець «VendorID» буде в межах певного набору значень
- IsComplete “VendorID” → Очікуйте, що “VendorID” буде ненульовим значенням
Як використовувати рекомендовані правила якості даних AWS Glue?
- Від Набори правил ви повинні побачити створений набір правил. Виберіть згенерований набір правил і виберіть Оцініть набір правил.
- Якщо ви не поставили прапорець для Збережіть рекомендовані правила як набір правил коли ви запустили рекомендацію, ви все ще можете натиснути на виконання завдання рекомендації та скопіювати правила, щоб створити новий набір правил
- для Дії щодо якості даних при Властивості якості данихвиберіть Публікуйте показники в Amazon CloudWatch. Якщо цей прапорець не поставлено, перевірка якості даних не публікуватиме показники в Amazon CloudWatch.
- для Роль IAM, виберіть GlueDataQualityBlogRole створений у стеку AWS CloudFormation.
- для Запитувана кількість працівників при Розширені властивості, залишити за замовчуванням.
- для Розташування результатів якості даних, виберіть значення GlueDataQualityResultsS3Bucket розташування, створене за допомогою стека AWS CloudFormation
- Вибирати Оцініть набір правил.
- Після початку прогону ви можете побачити його статус на Результати якості даних Вкладка.
- Коли запуск досягне успішної стадії, виберіть завершений запуск завдання якості даних і перегляньте результати якості даних, показані в Запустіть результати.
Наша служба рекомендацій запропонувала нам застосувати 55 правил на основі значень стовпців і даних у нашому наборі даних NYC Taxi. Потім ми перетворили колекцію з 55 правил у RuleSet. Потім ми запустили завдання оцінки якості даних, використовуючи наш набір правил для нашого набору даних. У наших результатах вище ми бачимо статус кожного в межах RuleSet.
Ви також можете використовувати API якості даних AWS Glue для виконання цих кроків.
Отримуйте сповіщення Amazon SNS про низьку якість моїх даних через сигналізацію Amazon CloudWatch
Кожна оцінка якості даних AWS Glue, запущена з каталогу даних, видає пару метрик під назвою glue.data.quality.rules.passed (із зазначенням кількості прийнятих правил) і glue.data.quality.rules.failed (із зазначенням кількості невдалих правил) за виконання якості даних. Цю випущену метрику можна використовувати для створення сигналів тривоги, щоб попередити користувачів, якщо даний цикл якості даних падає нижче порогового значення.
Щоб розпочати налаштування будильника, який надсилатиме електронний лист через сповіщення Amazon SNS, виконайте наведені нижче дії.
- Відкрийте консоль Amazon CloudWatch.
- Вибирати Всі показники при Метрика. Ви побачите додатковий простір імен під Спеціальні простори імен під назвою Якість даних клею.
Примітка. Починаючи запуск AWS Glue Data Quality, переконайтеся, що Публікуйте показники в Amazon CloudWatch прапорець увімкнено, як показано нижче. В іншому випадку показники для цього конкретного запуску не будуть опубліковані в Amazon CloudWatch.
- Відповідно до Якість даних клею простір імен, ви повинні мати змогу бачити метрики, що випускаються для таблиці, для кожного набору правил. Для цілей нашого блогу ми будемо використовувати glue.data.quality.rules.failed правило та нагадування, якщо це значення перевищує 1 (вказує на те, що якщо ми бачимо кількість невдалих оцінок правила, більшу за 1, ми хочемо отримати сповіщення).
- Щоб створити будильник, виберіть Всі сигналізації у розділі Будильники.
- Вибирати Створити будильник.
- Вибирати Виберіть показник.
- Виберіть glue.data.quality.rules.failed показник, що відповідає створеній вами таблиці, а потім виберіть Виберіть показник.
- Відповідно до Вкажіть показники та умови на вкладці Метрика розділ:
- для статистикавиберіть Сума.
- для періодвиберіть 1 хвилину.
- Відповідно до Conditions розділ:
- для Пороговий типвиберіть Статичний.
- для Кожного разу, коли glue.data.quality.rules.failed...виберіть Більший/рівний.
- для ніж..., введіть 1 як порогове значення.
- Розгорнути Додаткові конфігурації спадне меню і виберіть Розглядайте відсутні дані як добре
Ці вибірки означають, що якщо glue.data.quality.rules.failed метрика видає значення більше або дорівнює 1, ми ввімкнемо тривогу. Однак, якщо даних немає, ми вважатимемо їх прийнятними.
- Вибирати МАЙБУТНІ.
- On Налаштувати дії:
- Для Тригер стану тривоги розділ, виберіть У тривозі .
- для Надішліть сповіщення до наступної теми SNSвиберіть Створіть нову тему щоб надіслати сповіщення через нову тему SNS.
- для Надішліть електронний лист кінцевим точкам, які отримають сповіщення…, Введіть адресу вашої електронної пошти. Виберіть МАЙБУТНІ.
- для Назва сигналізації, введіть myFirstDQAlarm і виберіть МАЙБУТНІ.
- Нарешті, ви повинні побачити зведення всіх вибраних на Попередній перегляд і створення екран. Виберіть Створити будильник на дні.
- Тепер ви зможете побачити створення будильника на інформаційній панелі сигналів Amazon CloudWatch.
Щоб продемонструвати сигнали тривоги AWS Glue Data Quality, ми розглянемо реальний сценарій, коли ми отримуємо пошкоджені дані, і як ми можемо використовувати службу AWS Glue Data Quality, щоб отримувати сповіщення про це, використовуючи сигналізацію, яку ми створені на попередніх кроках. Для цього ми будемо використовувати наданий файл неправильне_жовте_таксі.паркет який містить дані, які були змінені навмисно.
- Перейдіть до розташування S3 DataQualityS3BucketName згаданий у шаблоні CloudFormation, наданому на початку публікації в блозі.
- Завантажте malformed_yellow_tripdata.parquet файл у це місце. Це допоможе нам змоделювати потік, у якому у нас є файл із низькою якістю даних, який надходить у наші озера даних через наші процеси ETL.
- Перейдіть до консолі AWS Glue Data Catalog, виберіть demo_nyc_taxi_data_input, створений за допомогою наданого шаблону AWS CloudFormation, а потім перейдіть до Якість даних Вкладка.
- Виберіть набір правил, який ми створили в першому розділі. Потім виберіть Оцініть набір правил.
- Від Оцініть екран якості даних:
- Поставте прапорець до Публікуйте показники в Amazon CloudWatch. Цей прапорець потрібен, щоб забезпечити надсилання показників помилок до Amazon CloudWatch.
- Виберіть роль IAM, створену за допомогою шаблону AWS CloudFormation.
- За бажанням виберіть розташування S3 для публікації результатів AWS Glue Data Quality.
- Select Оцініть набір правил.
- перейдіть до Результати якості даних вкладка. Тепер ви повинні побачити два запуски: один з попередніх кроків цього блогу та той, який ми зараз ініціювали. Дочекайтеся завершення поточного запуску.
- Як ви бачите, ми маємо невдалий результат запуску AWS Glue Data Quality: лише 52 з наших початкових 55 правил проходять. Ці збої пов’язані з новим файлом, який ми завантажили в S3.
- Перейдіть до консолі Amazon CloudWatch і виберіть будильник, який ми створили на початку цього розділу.
- Як бачите, ми налаштували будильник на спрацьовування щоразу, коли glue.data.quality.rules.failed метрика перетинає порогове значення 1. Після описаного вище запуску AWS Glue Data Quality ми бачимо, що 3 правила не виконуються, що викликало сигнал тривоги. Крім того, ви також мали отримати електронний лист із детальною інформацією про спрацювання сигналізації.
Таким чином, ми продемонстрували приклад, коли вхідні некоректні дані, що надходять у наші озера даних, можна ідентифікувати за допомогою правил якості даних AWS Glue, а потім можна створити механізми попередження для сповіщення відповідних осіб.
Проаналізуйте результати запуску AWS Glue Data Quality через Amazon Athena
У сценаріях, коли у вас є кілька результатів AWS Glue Data Quality run проти набору даних протягом певного періоду часу, ви можете відстежувати тенденції якості набору даних протягом певного періоду часу. Щоб досягти цього, ми можемо експортувати наші результати аналізу якості даних AWS Glue у S3 та використовувати Amazon Athena для виконання аналітичних запитів щодо експортованого циклу. Потім результати можна використовувати в Amazon QuickSight для створення інформаційних панелей для графічного представлення тенденцій якості ваших даних
У третій частині цієї публікації ми побачимо кроки, необхідні для початку відстеження даних про якість вашого набору даних:
- Для наших аналізів якості даних, які ми налаштували в попередніх розділах, ми встановили Розташування результатів якості даних у розташування сегмента, указане стеком AWS CloudFormation.
- Після кожного успішного запуску ви повинні побачити один файл JSONL, який експортується у вибране розташування S3, що відповідає цьому конкретному запуску.
- Відкрийте консоль Amazon Athena.
- У редакторі запитів виконайте наступний оператор CREATE TABLE (замініть з відповідним значенням і розділ з
GlueDataQualityResultsS3Bucket
значення з наданого шаблону AWS CloudFormation): - Після створення таблиці вище ви зможете виконувати запити для аналізу результатів якості даних.
Наприклад, розглянемо наступний запит, який показує, що помилка якості даних AWS Glue виконується в моїй таблиці demo_nyc_taxi_data_input
у часовому вікні:
Вихідні дані запиту вище показують мені деталі про всі запуски з “outcome” = 'Failed', які виконувалися з моєю таблицею набору даних NYC Taxi ( “tablename” = 'demo_nyc_taxi_data_input'). Результат також дає мені інформацію про причину помилки ( failurereason
) і значення, за якими воно було оцінено ( evaluatedmetrics
).
Як бачите, ми можемо отримати детальну інформацію про наші аналізи якості даних AWS Glue за допомогою результатів циклів, завантажених у S3, виконати більш детальний аналіз і створити інформаційні панелі на основі даних.
Прибирати
- Перейдіть до консолі Amazon Athena та видаліть таблицю, створену для аналізу якості даних.
- Перейдіть до консолі Amazon CloudWatch і видаліть створені будильники.
- Якщо ви розгорнули зразок стека CloudFormation, видаліть стек CloudFormation за допомогою консолі AWS CloudFormation. Вам знадобиться спорожніть відро S3 перш ніж видалити відро.
- Якщо ви ввімкнули свої запуски AWS Glue Data Quality для виведення на S3, також очистіть ці відра.
Висновок
У цій публікації ми говорили про легкість і швидкість включення правил якості даних за допомогою функції AWS Glue Data Quality у ваші таблиці AWS Glue Data Catalog. Ми також говорили про те, як запускати рекомендації та оцінювати якість даних у ваших таблицях. Потім ми обговорили аналіз результатів якості даних за допомогою Amazon Athena та процес налаштування сигналізації через Amazon CloudWatch, щоб сповіщати користувачів про погану якість даних.
Щоб зануритися в API якості даних AWS Glue, подивіться на Документація AWS Glue Data Quality API
Щоб дізнатися більше про якість даних AWS Glue, перегляньте Посібник розробника AWS Glue Data Quality
Про авторів
Анікет Джідігудар є архітектором великих даних у команді AWS Glue.
Йосип Барлан є інженером Frontend в AWS Glue. Він має понад 5 років досвіду, допомагаючи командам створювати багаторазові компоненти інтерфейсу користувача, і захоплюється системами дизайну інтерфейсу. У вільний час він любить малювати олівцем і дивитися телепередачі.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/
- 000
- 1
- 10
- 100
- 11
- 420
- a
- Здатний
- МЕНЮ
- вище
- прийнятний
- доступ
- рахунки
- точність
- точний
- Achieve
- визнавати
- через
- дії
- Додатковий
- адреса
- просунутий
- після
- проти
- тривога
- Оповіщення
- ВСІ
- Amazon
- Амазонка Афіна
- Amazon QuickSight
- аналіз
- Аналітичний
- аналітика
- аналізувати
- Аналізуючи
- та
- Оголосити
- Apache
- API
- Інтерфейси
- додаток
- Розробка додатка
- відповідний
- аспекти
- Активи
- автоматично
- доступний
- AWS
- AWS CloudFormation
- Клей AWS
- назад
- заснований
- перед тим
- початок
- буття
- нижче
- між
- Великий
- Великий даних
- Блог
- дно
- Box
- будувати
- бізнес
- нести
- каталог
- певний
- перевірка
- Вибирати
- класифікація
- Кодування
- збір
- Колонка
- Колони
- об'єднувати
- майбутній
- загальний
- повний
- Зроблено
- Компоненти
- Умови
- Вважати
- розгляду
- Консоль
- Споживачі
- містить
- перероблений
- Відповідний
- пошкоджені
- може
- створювати
- створений
- створює
- Поточний
- В даний час
- Клієнти
- приладова панель
- дані
- керовані даними
- Database
- рішення
- дефолт
- демонструвати
- продемонстрований
- розгорнути
- дизайн
- системи проектування
- докладно
- деталі
- Розробник
- розробка
- відхилення
- відкрити
- відкриття
- обговорювалися
- малювання
- кожен
- редактор
- інженер
- Машинобудування
- Інженери
- забезпечувати
- Що натомість? Створіть віртуальну версію себе у
- істотний
- і т.д.
- Ефір (ETH)
- оцінювати
- оцінюється
- оцінка
- оцінки
- приклад
- очікувати
- досвід
- експертиза
- Пояснювати
- експорт
- зовнішній
- витяг
- не вдалося
- Провал
- Фолс
- особливість
- філе
- остаточний
- Пожежа
- стрілянина
- Перший
- потік
- стежити
- після
- формат
- від
- Frontend
- далі
- породжувати
- генерується
- отримати
- отримання
- даний
- дає
- Go
- йде
- буде
- великий
- допомога
- допомогу
- тут
- Вулик
- Як
- How To
- Однак
- HTML
- HTTPS
- ідентифікований
- in
- Вхідний
- включення
- інформація
- інтеграція
- IT
- Джобс
- json
- запуск
- УЧИТЬСЯ
- вивчення
- Залишати
- загрузка
- розташування
- подивитися
- втрачати
- машина
- навчання за допомогою машини
- зробити
- РОБОТИ
- Робить
- керівництво
- заходи
- метрика
- Метрика
- може бути
- відсутній
- ML
- монітор
- моніторинг
- монітори
- більше
- множинний
- ім'я
- Переміщення
- Необхідність
- Нові
- наступний
- сповіщення
- Повідомлення
- номер
- Нью-Йорк
- ONE
- оптимальний
- порядок
- оригінал
- інакше
- параметр
- частина
- приватність
- Пройшов
- Проходження
- пристрасний
- виконувати
- period
- plato
- Інформація про дані Платона
- PlatoData
- задоволений
- точка
- бідні
- пошта
- Пости
- Готувати
- попередній перегляд
- попередній
- процес
- процеси
- забезпечувати
- за умови
- громадськість
- публікувати
- опублікований
- мета
- якість
- Досягає
- Реальний світ
- причина
- отримати
- останній
- Рекомендація
- рекомендації
- рекомендований
- рекомендує
- доречний
- ремонт
- замінювати
- подання
- вимагати
- вимагається
- ресурси
- результат
- результати
- багаторазовий
- Роль
- ROW
- Правило
- Правила
- прогін
- зберегти
- сценарії
- Екран
- розділ
- розділам
- обраний
- Серія
- Без сервера
- обслуговування
- комплект
- установка
- Форма
- Повинен
- показаний
- Шоу
- простий
- простота
- один
- конкретний
- зазначений
- швидкість
- стек
- Стажування
- standard
- старт
- почалася
- Починаючи
- стан
- Заява
- Статус
- заходи
- Як і раніше
- зберігання
- зберігати
- зберігати
- магазинів
- наступні
- успішний
- Успішно
- РЕЗЮМЕ
- поставляється
- Systems
- таблиця
- Приймати
- Завдання
- команда
- команди
- шаблон
- Команда
- третій
- тисячі
- поріг
- через
- час
- відмітка часу
- до
- сьогодні
- інструменти
- топ
- тема
- Усього:
- трек
- Відстеження
- Перетворення
- лікувати
- Тенденції
- викликати
- спрацьовує
- Довіряйте
- tv
- ui
- при
- завантажено
- us
- використання
- користувачі
- використовувати
- значення
- Цінності
- різний
- через
- вид
- чекати
- спостереження
- який
- волі
- в
- без
- робочі
- працює
- б
- років
- вашу
- зефірнет