Управління даними — це сукупність політик, процесів і систем, які організації використовують для забезпечення якості та належного поводження зі своїми даними протягом усього життєвого циклу з метою створення цінності для бізнесу. Управління даними стає все більш важливим для клієнтів, оскільки вони визнають дані одним із своїх найважливіших активів. Ефективне управління даними дозволяє краще приймати рішення за рахунок покращення якості даних, зменшення витрат на керування даними та забезпечення безпечного доступу до даних для зацікавлених сторін. Крім того, управління даними потрібне для відповідності дедалі складнішому нормативному середовищу з конфіденційністю даних (наприклад, GDPR і CCPA) і правилам резидентності даних (наприклад, у ЄС, Росії та Китаї).
Для клієнтів AWS ефективне управління даними покращує процес прийняття рішень, підвищує гнучкість бізнесу, забезпечує конкурентну перевагу та зменшує ризик штрафів через недотримання нормативних зобов’язань. Ми розуміємо унікальну можливість надати нашим клієнтам комплексне комплексне рішення для керування даними, яке бездоганно інтегровано в наш портфель послуг, і Формування озера AWS і Каталог даних AWS Glue є ключовими для вирішення цих проблем.
У цій публікації ми з радістю підсумовуємо функції, які команда AWS Glue Data Catalog, AWS Glue crawler і Lake Formation представила у 2022 році. Ми зібрали деякі з ключових доповідей і рішень щодо керування даними, сітки даних і сучасних даних. архітектуру, опубліковану та представлену в AWS re:Invent 2022, а також кілька рішень для озер даних, створених клієнтами та партнерами AWS для зручного ознайомлення. Незалежно від того, чи є ви розробником платформ даних, інженером з обробки даних, дослідником даних або будь-яким технологічним лідером, який цікавиться рішеннями для озер даних, ця публікація для вас.
Щоб дізнатися більше про те, як клієнти захищають і обмінюються даними з Lake Formation, ми рекомендуємо заглибитися в GoDaddy децентралізована мережа даних, Ново Нордіск сучасна архітектура даних, а також удосконалення JPMorgan Федеративне озеро даних, регульована реалізація сітки даних із використанням Lake Formation. Крім того, ви можете дізнатися, як партнери AWS інтегрувалися з Lake Formation, щоб допомогти клієнтам створювати унікальні озера даних, у Starburst рішення сітки даних, Інформатика автоматизоване рішення для обміну даними, Ахана Інтеграція Presto з Lake Formation, Звичай на сходження система управління даними, як використовувався PBS машинне навчання на своїх озерах даних, і як hc1 забезпечує персоналізована інформація про здоров'я для клієнтів.
Ви можете переглянути, як Lake Formation використовується клієнтами для будівництва сучасні архітектури даних у наступних доповідях re:Invent 2022:
Команда Lake Formation прислухалася до відгуків клієнтів і внесла вдосконалення в області керування даними між обліковими записами, розширивши джерело озер даних, забезпечивши уніфіковане керування даними каталогу бізнес-даних, зробивши можливим безпечний обмін даними між компаніями та розширення зони охоплення для детального контролю доступу до Амазонська червона зміна. У решті цієї публікації ми раді поділитися прогресом, якого досягли у 2022 році.
Удосконалення управління між обліковими записами
Lake Formation забезпечує основу для обміну даними між обліковими записами в межах організації. Ви можете поділитися ресурсами AWS Glue Data Catalog Управління ідентифікацією та доступом AWS (IAM) принципали в обліковому записі, а також інші облікові записи AWS за допомогою двох методів. Перший називається методом іменованих ресурсів, де користувачі можуть вибрати імена баз даних і таблиць і вибрати тип дозволів для спільного використання. Другий метод використовує LF-теги, де користувачі можуть створювати та пов’язувати LF-теги з базами даних і таблицями та надавати дозвіл принципалам IAM за допомогою політик і виразів LF-тегів.
У листопаді 2022 року Lake Formation представила версію 3 свого функція спільного доступу до кількох облікових записів. З цією новою версією користувачі Lake Formation можуть ділитися ресурсами каталогу за допомогою LF-тегів на Організації AWS рівень. Обмін даними за допомогою LF-тегів допомагає масштабувати дозволи та зменшує роботу адміністратора для розробників озера даних. Спільне використання між обліковими записами версії 3 також дозволяє ділитися ресурсами з окремими принципалами IAM в інших облікових записах, забезпечуючи власникам даних контроль над тим, хто може отримати доступ до їхніх даних в інших облікових записах. Нарешті, ми усунули накладні витрати на написання та підтримку політик ресурсів каталогу даних, представивши Менеджер доступу до ресурсів AWS (AWS RAM) запрошує з політикою на основі LF-тегів у версії 3 для спільного використання між обліковими записами. Радимо вам продовжити вивчення обмін обліковими записами в Lake Formation.
Розширення дозволів Lake Formation на нові дані
До re:Invent 2022 Lake Formation забезпечувала керування дозволами для принципалів IAM на ресурси каталогу даних із базовими даними переважно на Служба простого зберігання Amazon (Amazon S3). На re:Invent 2022 ми представили Керування дозволами Lake Formation для спільних даних Amazon Redshift у режимі попереднього перегляду. Amazon Redshift — це повністю керована служба сховища даних розміром до петабайтів у хмарі AWS. The функція обміну даними дозволяє власникам даних групувати бази даних, таблиці та перегляди в кластері Amazon Redshift і ділитися ними з іншими кластерами Amazon Redshift в облікових записах AWS або між ними. Спільне використання даних зменшує потребу зберігати кілька копій одних і тих самих даних у різних сховищах даних, щоб прискорити прийняття бізнес-рішень в організації. Lake Formation ще більше покращує обмін даними в спільному доступі до даних Amazon Redshift, надаючи детальний контроль доступу до таблиць і представлень.
Додаткову інформацію про цю функцію див Обмін даними Redshift, керований AWS Lake Formation (попередній перегляд) та Як Lake Formation може керувати обміном даними Redshift.
Amazon EMR це керована кластерна платформа для запуску програм великих даних за допомогою Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi та Presto у масштабі. Ви можете використовувати Amazon EMR для виконання аналітичних завдань пакетної та потокової обробки на своїх озерах даних S3. Починаючи з випуску Amazon EMR 6.7.0, ми представили Керування дозволами Lake Formation для ролі IAM під час виконання використовується з EMR Steps API. Ця функція дає змогу надсилати додатки Apache Spark і Apache Hive у кластер EMR через API EMR Steps, який надає дозволи на рівні таблиці та стовпця за допомогою Lake Formation для ролі IAM, яка надсилає заявку. Ця інтеграція Lake Formation із Amazon EMR дає змогу надавати спільний доступ до кластера EMR декільком користувачам в організації з різними дозволами, ізолюючи ваші програми за допомогою ролі IAM під час виконання. Радимо вам перевірити цю функцію на семінарі «Утворення озера». Інтеграція з Amazon EMR за допомогою ролей виконання. Щоб дослідити варіант використання, див Представляємо ролі середовища виконання для кроків Amazon EMR: використовуйте ролі IAM і AWS Lake Formation для контролю доступу за допомогою Amazon EMR.
Студія Amazon SageMaker це повністю інтегроване середовище розробки (IDE) для машинного навчання (ML), яке дозволяє науковцям і розробникам даних готувати дані для створення, навчання, налаштування та розгортання моделей. Studio пропонує вбудовану інтеграцію з Amazon EMR, щоб спеціалісти з обробки даних та інженери з обробки даних могли інтерактивно готувати дані в масштабі петабайтів за допомогою фреймворків з відкритим кодом, таких як Apache Spark, Presto та Hive, за допомогою ноутбуків Studio. З випуском о Керування дозволами Lake Formation для ролі IAM під час виконання, Studio тепер підтримує доступ на рівні таблиці та стовпця за допомогою Lake Formation. Коли користувачі підключаються до кластерів EMR із ноутбуків Studio, вони можуть вибрати роль IAM (називається роль IAM під час виконання), з якими вони хочуть зв’язатися. Якщо доступом до даних керує Lake Formation, користувачі можуть застосовувати дозволи на рівні таблиці та стовпця за допомогою політик, доданих до ролі середовища виконання. Для отримання додаткової інформації див Застосовуйте точні засоби керування доступом до даних за допомогою AWS Lake Formation і Amazon EMR від Amazon SageMaker Studio.
Завантажте та каталогізуйте різноманітні дані
Надійна модель керування даними включає дані з багатьох джерел даних організації та методи для виявлення та каталогізації цих різноманітних активів даних. Роботи AWS Glue надають можливість знаходити дані з джерел, зокрема Amazon S3, Amazon Redshift і NoSQL, і заповнювати каталог даних AWS Glue.
У 2022 році ми запустили Підтримка сканера AWS Glue для Snowflake та Підтримка сканера AWS Glue для таблиць Delta Lake. Ці інтеграції дозволяють сканерам AWS Glue створювати та оновлювати таблиці Data Catalog на основі цих популярних джерел даних. Це ще простіше створювати завдання вилучення, трансформації та завантаження (ETL) за допомогою AWS Glue на основі цих таблиць каталогу даних як джерел і цілей.
У 2022 році інтерфейс сканерів AWS Glue було перероблено, щоб запропонувати кращий досвід роботи з користувачем. Одне з головних удосконалень, внесених у рамках цієї редакції, — це більш глибоке розуміння історії сканера AWS Glue. Інтерфейс журналу сканера забезпечує легкий перегляд запусків сканера, розкладів, джерел даних і тегів. Для кожного сканування історія сканера пропонує підсумок змін у схемі бази даних або зміни розділу Amazon S3. Журнал сканера також надає детальну інформацію про години DPU та скорочує час, витрачений на аналіз і налагодження операцій сканера та витрати. Щоб ознайомитися з новими функціями, доданими до інтерфейсу користувача сканера, див Налаштуйте та відстежуйте сканери AWS Glue за допомогою вдосконаленого інтерфейсу користувача AWS Glue і історії сканера.
У 2022 році ми також розширили підтримку сканерів на основі сповіщень про події Amazon S3 для підтримки таблиць каталогу. За допомогою цієї функції поступове сканування можна перенести з конвеєрів даних на запланований сканер AWS Glue, зводячи сканування до додаткових подій S3. Для отримання додаткової інформації див Створюйте поступове сканування озер даних за допомогою існуючих таблиць каталогу Glue.
Більше способів обміну даними за межами озера даних
Під час re:Invent 2022 ми анонсували попередній перегляд AWS Data Exchange for AWS Lake Formation, нова функція, яка дозволяє абонентам даних знаходити та підписуватися на сторонні набори даних, якими керують безпосередньо через Lake Formation. дотепер Обмін даними AWS передплатники могли отримати доступ до сторонніх наборів даних, експортуючи файли постачальників у власні сегменти S3, викликаючи API постачальників через API -шлюз Amazonабо надсилання запитів до спільних даних виробників Amazon Redshift у кластері Amazon Redshift. Завдяки новій інтеграції Lake Formation постачальники даних керують наборами даних AWS Data Exchange за допомогою тегів Lake Formation. Користувачі, які підписалися на дані, можуть запитувати та досліджувати бази даних і таблиці, пов’язані з цими тегами, як і будь-який інший ресурс каталогу даних AWS Glue. Організації можуть застосовувати дозволи Lake Formation на основі ресурсів для спільного використання ліцензованих наборів даних у межах одного облікового запису або між обліковими записами за допомогою Менеджер ліцензій AWS. AWS Data Exchange for Lake Formation оптимізує операції з ліцензування та обміну даними шляхом прискорення реєстрації даних, зменшення обсягу ETL, необхідного кінцевим користувачам для доступу до сторонніх даних, і централізації управління та контролю доступу до сторонніх даних.
На re:Invent 2022 ми також анонсували Amazon DataZone, нова служба керування даними, яка дозволяє швидше та легше каталогізувати, виявляти, ділитися та керувати даними, що зберігаються в AWS, локальних і сторонніх джерелах. Amazon DataZone — це служба каталогу бізнес-даних, яка доповнює технічні метадані в каталозі даних AWS Glue. Amazon DataZone інтегровано з керуванням дозволами Lake Formation, щоб ви могли ефективно керувати доступом до своїх даних і перевіряти, хто і з якою метою отримує доступ до яких даних. Завдяки моделі «видавець-передплатник» Amazon DataZone доступ до ресурсів даних можна надавати в різних регіонах. Додаткову інформацію про послугу та її можливості див Поширені запитання про Amazon DataZone та re: Invent launch.
Висновок
Дані змінюють кожну сферу та кожен бізнес. Однак, оскільки дані зростають швидше, ніж більшість компаній можуть відстежувати, збирати, захищати та отримувати від них цінність є складною справою. Сучасна стратегія даних може допомогти вам досягти кращих бізнес-результатів за допомогою даних. AWS надає найповніший набір послуг для наскрізної передачі даних, щоб допомогти вам розблокувати цінність ваших даних і перетворити їх на розуміння.
У AWS ми працюємо у зворотному напрямку від вимог клієнтів. Команда Lake Formation наполегливо працювала, щоб забезпечити функції, описані в цій публікації, і ми запрошуємо вас ознайомитися з ними. Ми продовжуємо зосереджуватися на винаходах і сподіваємося відіграти ключову роль у розширенні можливостей організацій для створення нових моделей керування даними, які допоможуть вам блискавично отримати більше цінності для бізнесу.
Ви можете розпочати роботу з утворенням озера, ознайомившись з нашими практичний семінар модулі і Початок навчання. Ми з нетерпінням чекаємо від вас, наших клієнтів, щодо ваших сценаріїв використання озера даних і керування даними. Зв’яжіться зі своєю командою облікового запису AWS і поділіться своїми коментарями.
Про авторів
Джейсон Берковіц є старшим менеджером із продуктів AWS Lake Formation. Він має досвід машинного навчання та архітектур озер даних. Він допомагає клієнтам стати керованими даними.
Арті Срінівасан є старшим архітектором великих даних у AWS Lake Formation. Їй подобається створювати рішення для озер даних для клієнтів і партнерів AWS. Коли вона не за клавіатурою, вона досліджує останні тенденції науки та техніки та проводить час із сім’єю.
Леонардо Гомес є старшим архітектором рішень спеціаліста з аналітики в AWS. Він проживає в Торонто, Канада, і має понад десятирічний досвід роботи в управлінні даними, допомагаючи клієнтам по всьому світу задовольняти їхні бізнесові та технічні потреби.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- здатність
- Здатний
- МЕНЮ
- прискорювати
- прискорення
- доступ
- Доступ до даних
- доступний
- доступ до
- рахунки
- Рахунки
- через
- доданий
- доповнення
- Додатковий
- адреса
- адмін
- Перевага
- дозволяє
- Amazon
- Amazon EMR
- Amazon SageMaker
- кількість
- аналітика
- Аналізуючи
- та
- оголошений
- Apache
- Apache Spark
- API
- Інтерфейси
- додаток
- застосування
- Застосовувати
- відповідний
- архітектура
- ПЛОЩА
- області
- навколо
- Активи
- Юрист
- асоційований
- аудит
- AWS
- Клей AWS
- Формування озера AWS
- AWS re:Invent
- фон
- заснований
- ставати
- Краще
- За
- Великий
- Великий даних
- будувати
- будівельник
- будівельники
- Створюємо
- побудований
- бізнес
- бізнес для бізнесу
- званий
- покликання
- Може отримати
- Канада
- можливості
- випадок
- випадків
- каталог
- CCPA
- проблеми
- складні
- Зміни
- перевірка
- Китай
- Вибирати
- хмара
- кластер
- Збір
- збір
- коментарі
- Компанії
- конкурентоспроможний
- повний
- комплекс
- всеосяжний
- З'єднуватися
- триває
- контроль
- управління
- витрати
- може
- охоплення
- гусеничний
- створювати
- виготовлений на замовлення
- клієнт
- Клієнти
- дані
- доступ до даних
- інженер даних
- Обмін даними
- Озеро даних
- управління даними
- Платформа даних
- конфіденційність даних
- якість даних
- вчений даних
- обмін даними
- стратегія даних
- сховище даних
- сховища даних
- керовані даними
- Database
- базами даних
- набори даних
- десятиліття
- Прийняття рішень
- глибше
- доставляти
- поставляється
- Дельта
- розгортання
- описаний
- докладно
- деталі
- розробників
- розробка
- різний
- безпосередньо
- відкрити
- кожен
- легше
- Ефективний
- фактично
- уповноважують
- дозволяє
- дозволяє
- заохочувати
- кінець в кінець
- інженер
- Інженери
- підвищена
- Підсилює
- забезпечувати
- забезпечення
- Навколишнє середовище
- Ефір (ETH)
- EU
- Навіть
- Event
- Події
- Кожен
- обмін
- збуджений
- існуючий
- розширюється
- досвід
- дослідити
- Дослідження
- вирази
- витяг
- сім'я
- швидше
- особливість
- риси
- зворотний зв'язок
- кілька
- поле
- Файли
- знайти
- кінець
- Перший
- Сфокусувати
- після
- освіта
- Вперед
- фонд
- каркаси
- від
- повністю
- функціональні можливості
- далі
- GDPR
- породжує
- отримати
- отримання
- земну кулю
- буде
- управління
- надавати
- великий
- Group
- Зростання
- Обробка
- щасливий
- Жорсткий
- здоров'я
- слух
- допомога
- допомогу
- допомагає
- історія
- Вулик
- надія
- ГОДИННИК
- Як
- Однак
- HTML
- HTTPS
- IAM
- Особистість
- реалізація
- важливо
- поліпшення
- поліпшується
- поліпшення
- in
- В інших
- includes
- У тому числі
- Збільшує
- все більше і більше
- інформація
- інформація
- розуміння
- розуміння
- інтегрований
- інтеграція
- інтеграцій
- зацікавлений
- введені
- введення
- запрошувати
- IT
- Джобс
- подорож
- тримати
- ключ
- озеро
- останній
- запущений
- лідер
- УЧИТЬСЯ
- вивчення
- рівень
- ліцензія
- Ліцензований
- ліцензування
- блискавка
- Швидкість блискавки
- загрузка
- подивитися
- машина
- навчання за допомогою машини
- made
- головний
- РОБОТИ
- Робить
- управляти
- вдалося
- управління
- менеджер
- багато
- метадані
- метод
- методика
- ML
- режим
- модель
- Моделі
- сучасний
- Модулі
- монітор
- більше
- найбільш
- множинний
- Імена
- рідний
- Необхідність
- потреби
- Нові
- Нова функція
- ноутбуки
- Повідомлення
- Листопад
- Novo
- облігації
- пропонувати
- Пропозиції
- На борту
- ONE
- з відкритим вихідним кодом
- операції
- Можливість
- організація
- організації
- Інше
- власний
- Власники
- частина
- партнери
- PBS
- дозвіл
- Дозволи
- петабайт
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- Play
- будь ласка
- Політика
- популярний
- портфель
- це можливо
- пошта
- Готувати
- представлений
- попередній перегляд
- в першу чергу
- недоторканність приватного життя
- процеси
- обробка
- Product
- менеджер по продукції
- прогрес
- забезпечувати
- за умови
- провайдери
- забезпечує
- забезпечення
- опублікований
- мета
- якість
- Оперативна пам'ять
- RE
- визнавати
- рекомендувати
- знижує
- зниження
- райони
- правила
- регуляторні
- звільнити
- Вилучено
- вимагається
- Вимога
- ресурс
- ресурси
- REST
- огляд
- Risk
- міцний
- Роль
- ролі
- прогін
- Росія
- мудрець
- то ж
- шкала
- плановий
- наука
- Наука і технології
- вчений
- Вчені
- плавно
- другий
- безпечний
- забезпечення
- старший
- обслуговування
- Послуги
- комплект
- Поділитись
- загальні
- акції
- поділ
- простий
- So
- рішення
- Рішення
- Розв’язування
- деякі
- Source
- Джерела
- Іскритися
- спеціаліст
- конкретний
- швидкість
- відпрацьований
- зацікавлених сторін
- зореутворення
- почалася
- Починаючи
- заходи
- зберігання
- зберігати
- Стратегія
- потік
- студія
- представляти
- підписуватися
- абоненти
- такі
- підсумовувати
- РЕЗЮМЕ
- підтримка
- Опори
- Systems
- Переговори
- цілі
- команда
- команди
- технічний
- Технологія
- Команда
- Джерело
- їх
- річ
- третя сторона
- через
- по всьому
- час
- до
- Торонто
- торкатися
- трек
- Навчання
- Перетворення
- перетворення
- Тенденції
- ПЕРЕГЛЯД
- ui
- що лежить в основі
- розуміти
- єдиний
- створеного
- відімкнути
- Оновити
- використання
- використання випадку
- користувач
- User Experience
- користувачі
- значення
- версія
- вид
- думки
- Склад
- способи
- Що
- Чи
- ВООЗ
- в
- Work
- працював
- майстерня
- Семінари
- лист
- рік
- вашу
- YouTube
- зефірнет