Сьогодні сотні тисяч клієнтів використовують озера даних для аналітики та машинного навчання. Однак розробники даних мають очистити та підготувати ці дані, перш ніж їх можна буде використовувати. Основні дані мають бути точними та актуальними, щоб клієнт міг приймати впевнені бізнес-рішення. В іншому випадку споживачі даних втрачають довіру до даних і приймають неоптимальні або неправильні рішення. Для інженерів обробки даних типовим завданням є оцінка того, чи є дані точними та нещодавніми. Сьогодні існують різні інструменти якості даних. Однак звичайні інструменти якості даних зазвичай вимагають ручних процесів для моніторингу якості даних.
Якість даних AWS Glue є функцією попереднього перегляду Клей AWS що вимірює та контролює якість даних Служба простого зберігання Amazon (Amazon S3) озера даних і в AWS Glue завдання вилучення, трансформації та завантаження (ETL). Це відкрита функція попереднього перегляду, тому її вже ввімкнено у вашому обліковому записі в доступні регіони. Ви можете легко визначити та виміряти перевірки якості даних у консолі AWS Glue Studio без написання кодів. Це спрощує ваш досвід керування якістю даних.
Ця публікація є частиною 2 із чотирьох публікацій, які пояснюють, як працює AWS Glue Data Quality. Перегляньте попередню публікацію в цій серії:
У цій публікації ми покажемо, як створити завдання AWS Glue, яке вимірює та контролює якість даних у конвеєрі даних. Ми також показуємо, як діяти на основі результатів якості даних.
Огляд рішення
Давайте розглянемо приклад використання, коли розробнику даних потрібно побудувати конвеєр даних, щоб передавати дані з необробленої зони в керовану зону в озері даних. Як інженер обробки даних, одним із ваших ключових обов’язків — поряд із вилученням, перетворенням і завантаженням даних — є перевірка якості даних. Попереднє виявлення проблем із якістю даних допоможе вам запобігти розміщенню поганих даних у керованій зоні та уникнути важких випадків пошкодження даних.
У цій публікації ви дізнаєтесь, як легко налаштувати вбудований та виготовлений на замовлення перевірка даних у вашому завданні AWS Glue, щоб запобігти пошкодженню поганих даних високоякісних даних.
Набір даних, який використовується для цієї публікації, створено синтетично; наступний знімок екрана показує приклад даних.
Налаштуйте ресурси за допомогою AWS CloudFormation
Ця публікація включає AWS CloudFormation шаблон для швидкого налаштування. Ви можете переглянути та налаштувати його відповідно до своїх потреб.
Шаблон CloudFormation створює такі ресурси:
- Відро Amazon Simple Storage Service (Amazon S3) (
gluedataqualitystudio-*
). - Наступні префікси та об’єкти в сегменті S3:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- Управління ідентифікацією та доступом AWS (IAM) користувачів, ролей і політик. Роль IAM (
GlueDataQualityStudio-*
) має дозвіл на читання та запис із відра S3. - AWS Lambda функції та політики IAM, необхідні цим функціям для створення та видалення цього стека.
Щоб створити ресурси, виконайте такі дії:
- Увійдіть у Консоль AWS CloudFormation в
us-east-1
Регіон. - Вибирати Запустити стек:
- Select Я визнаю, що AWS CloudFormation може створювати ресурси IAM.
- Вибирати Створити стек і дочекайтеся завершення етапу створення стека.
Реалізуйте рішення
Щоб розпочати налаштування рішення, виконайте такі дії:
- на Консоль AWS Glue Studioвиберіть Джобс у навігаційній панелі.
- Select Візуал із чистим полотном І вибирай Створювати.
- Виберіть опис роботи вкладку для налаштування завдання.
- для ІМ'Я, введіть
GlueDataQualityStudio
. - для Роль IAM, виберіть роль, починаючи з
GlueDataQualityStudio-*
. - для Клейовий варіантвиберіть Клей 3.0.
- для Закладка вакансіївиберіть Забороняти. Це дозволяє виконувати це завдання кілька разів з тим самим набором вхідних даних.
- для Кількість повторних спроб, введіть
0
. - У Розширені властивості розділі надайте сегмент S3, створений шаблоном CloudFormation (починаючи з
gluedataqualitystudio-*
). - Вибирати зберегти.
- Після збереження завдання виберіть Візуальний вкладка і на Source меню, виберіть Amazon S3.
- на Властивості джерела даних – S3 вкладка, для Тип джерела S3виберіть Розташування S3.
- Вибирати Перегляньте S3 і перейдіть до префікса
/datalake/raw/customer/
у відрі S3, починаючи зgluedataqualitystudio-*
. - Вибирати Виведіть схему.
- на дію меню, виберіть Оцініть якість даних.
- Виберіть Оцініть якість даних вузол.
на Перетворення Тепер ви можете почати створювати правила якості даних. Перше правило, яке ви створюєте, це перевірити, чиCustomer_ID
є унікальним і не має нульового значення за допомогоюisPrimaryKey
правити - на Типи правил вкладка в Конструктор правил DQDL, шукати
isprimarykey
і виберіть знак плюс. - на схема вкладка в Конструктор правил DQDL, виберіть знак плюс поруч із
Customer_ID
. - У редакторі правил видаліть
id
.
Наступне правило, яке ми додаємо, перевіряє, щоFirst_Name
значення стовпця присутнє для всіх рядків. - Ви також можете ввести правила якості даних безпосередньо в редакторі правил. Додайте кому (,) і введіть
IsComplete "First_Name",
після першого правила.
Далі ви додаєте спеціальне правило, щоб перевірити, що без нього не існує жодного рядкаTelephone
orEmail
. - Введіть наступне спеціальне правило в редакторі правил:
Функція «Оцінити якість даних» забезпечує дії для керування результатами роботи на основі результатів якості роботи. - Для цієї публікації виберіть Невдала робота, коли якість даних погіршується І вибирай Помилка завдання без завантаження цілі дані дії. В Налаштування якості вихідних даних розділ, вибрати Перегляньте S3 і перейдіть до префікса
dqresults
у відрі S3, починаючи зgluedataqualitystudio-*
. - на Мета меню, виберіть Amazon S3.
- Виберіть Мета даних – відро S3 вузол.
- на Властивості цільових даних – S3 вкладка, для сформованийвиберіть паркет, А для Тип компресіївиберіть Швидко.
- для S3 Цільове розташуваннявиберіть Перегляньте S3 і перейдіть до префікса
/datalake/curated/customer/
у відрі S3, починаючи зgluedataqualitystudio-*
. - Вибирати зберегти, Потім виберіть прогін.
Ви можете переглянути деталі виконання завдання на вкладці Запуски. У нашому прикладі завдання не виконується з повідомленням про помилку «AssertionError: завдання не виконано через помилку правил DQ для вузла: .”
Ви можете переглянути результат якості даних на вкладці Якість даних. У нашому прикладі перевірка якості спеціальних даних не вдалася, оскільки один із рядків у наборі даних мав ніTelephone
orEmail
value.Результати оцінки якості даних також записуються в сегмент S3 у форматі JSON на основі параметра розташування результату якості даних вузла. - перейдіть до
dqresults
префікс під відром S3 починаючиgluedataqualitystudio-*
. Ви побачите, що результати якості даних розділені за датою.
Нижче наведено вихідні дані файлу JSON. Ви можете використовувати цей вихідний файл для створення спеціальних панелей візуалізації якості даних.
Ви також можете контролювати Оцініть якість даних вузол через Amazon CloudWatch метрики та встановлюйте сигнали тривоги для надсилання сповіщень про результати якості даних. Щоб дізнатися більше про те, як налаштувати будильники CloudWatch, див Використання будильників Amazon CloudWatch.
Прибирати
Щоб уникнути майбутніх витрат і очистити невикористані ролі та політики, видаліть створені вами ресурси:
- Видалити
GlueDataQualityStudio
роботу, яку ви створили в рамках цієї публікації. - На консолі AWS CloudFormation видаліть
GlueDataQualityStudio
стек
Висновок
AWS Glue Data Quality пропонує простий спосіб вимірювання та моніторингу якості даних вашого конвеєра ETL. У цій публікації ви дізналися, як виконувати необхідні дії на основі результатів якості даних, що допоможе вам підтримувати високі стандарти даних і приймати впевнені бізнес-рішення.
Щоб дізнатися більше про якість даних AWS Glue, перегляньте документацію:
Про авторів
Дінбандху Прасад є старшим спеціалістом з аналітики в AWS, який спеціалізується на службах великих даних. Він захоплено допомагає клієнтам створювати сучасну архітектуру даних у хмарі AWS. Він допомагав клієнтам будь-якого розміру впроваджувати рішення для керування даними, сховища даних і озера даних.
Янніс Ментекідіс є старшим інженером з розробки програмного забезпечення в команді AWS Glue.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- МЕНЮ
- доступ
- рахунки
- точний
- визнавати
- дію
- дії
- після
- ВСІ
- дозволяє
- вже
- Amazon
- аналітика
- та
- архітектура
- AWS
- AWS CloudFormation
- Клей AWS
- поганий
- погані дані
- заснований
- оскільки
- перед тим
- Великий
- Великий даних
- будувати
- Створюємо
- бізнес
- випадок
- вантажі
- перевірка
- Перевірки
- Вибирати
- хмара
- Колонка
- загальний
- повний
- впевнений
- Вважати
- Консоль
- Споживачі
- Корупція
- створювати
- створений
- створення
- Куратор
- виготовлений на замовлення
- клієнт
- Клієнти
- налаштувати
- дані
- Озеро даних
- управління даними
- Дата
- рішення
- деталі
- розробка
- безпосередньо
- документація
- легко
- редактор
- інженер
- Інженери
- Що натомість? Створіть віртуальну версію себе у
- помилка
- Ефір (ETH)
- оцінювати
- приклад
- існує
- досвід
- Пояснювати
- витяг
- не вдалося
- зазнає невдачі
- особливість
- філе
- Перший
- після
- формат
- від
- Функції
- майбутнє
- генерується
- генерує
- отримання
- допоміг
- допомогу
- допомагає
- Високий
- високоякісний
- Як
- How To
- Однак
- HTML
- HTTPS
- Сотні
- ідентифікує
- Особистість
- здійснювати
- in
- includes
- вхід
- питання
- IT
- робота
- Джобс
- json
- ключ
- озеро
- УЧИТЬСЯ
- вчений
- вивчення
- загрузка
- погрузка
- розташування
- втрачати
- машина
- навчання за допомогою машини
- підтримувати
- зробити
- управляти
- управління
- управління
- керівництво
- вимір
- заходи
- Меню
- повідомлення
- Метрика
- може бути
- сучасний
- монітор
- монітори
- більше
- множинний
- Переміщення
- навігація
- необхідно
- потреби
- наступний
- вузол
- Повідомлення
- об'єкти
- Пропозиції
- ONE
- відкрити
- інакше
- pane
- параметр
- частина
- пристрасний
- дозвіл
- трубопровід
- розміщення
- plato
- Інформація про дані Платона
- PlatoData
- плюс
- Політика
- пошта
- Готувати
- представити
- запобігати
- попередній перегляд
- попередній
- первинний
- процеси
- властивості
- забезпечувати
- забезпечує
- якість
- Швидко
- Сировина
- Читати
- останній
- регіон
- вимагати
- вимагається
- ресурси
- результат
- результати
- огляд
- Роль
- ролі
- ROW
- Правило
- Правила
- прогін
- то ж
- Пошук
- розділ
- Серія
- обслуговування
- Послуги
- комплект
- установка
- установка
- Показувати
- Шоу
- підпис
- простий
- розміри
- So
- Софтвер
- розробка програмного забезпечення
- рішення
- Рішення
- Source
- спеціаліст
- спеціалізується
- стек
- стандартів
- старт
- почалася
- Починаючи
- Крок
- заходи
- зберігання
- студія
- костюм
- синтетично
- Приймати
- Мета
- Завдання
- команда
- шаблон
- Команда
- тисячі
- через
- times
- до
- сьогодні
- інструменти
- Перетворення
- перетворення
- Довіряйте
- при
- що лежить в основі
- створеного
- невикористаний
- використання
- використання випадку
- користувачі
- зазвичай
- ПЕРЕВІР
- перевірка достовірності
- значення
- різний
- вид
- візуалізації
- чекати
- Чи
- який
- волі
- без
- працює
- запис
- лист
- письмовий
- вашу
- зефірнет