Управление данными — это набор политик, процессов и систем, которые организации используют для обеспечения качества и надлежащей обработки своих данных на протяжении всего их жизненного цикла с целью создания ценности для бизнеса. Управление данными становится все более важным для клиентов, поскольку они считают данные одним из своих самых важных активов. Эффективное управление данными позволяет лучше принимать решения за счет повышения качества данных, снижения затрат на управление данными и обеспечения безопасного доступа к данным для заинтересованных сторон. Кроме того, управление данными необходимо для соблюдения все более сложной нормативно-правовой базы в отношении конфиденциальности данных (например, GDPR и CCPA) и правил хранения данных (например, в ЕС, России и Китае).
Для клиентов AWS эффективное управление данными улучшает процесс принятия решений, повышает гибкость бизнеса, обеспечивает конкурентное преимущество и снижает риск штрафов из-за несоблюдения нормативных обязательств. Мы понимаем уникальную возможность предоставить нашим клиентам комплексное комплексное решение для управления данными, которое легко интегрируется в наш портфель услуг, и Формирование озера AWS и Каталог данных AWS Glue являются ключом к решению этих задач.
В этом посте мы рады подытожить функции, которые команда AWS Glue Data Catalog, поисковый робот AWS Glue и команда Lake Formation предоставили в 2022 году. Мы собрали некоторые ключевые доклады и решения по управлению данными, сетке данных и современным данным. архитектура, опубликованная и представленная в AWS re:Invent 2022, а также несколько решений для озер данных, созданных клиентами и партнерами AWS для удобства использования. Независимо от того, являетесь ли вы разработчиком платформы данных, инженером данных, специалистом по данным или любым другим технологическим руководителем, заинтересованным в решениях для озера данных, этот пост для вас.
Чтобы узнать больше о том, как клиенты защищают данные и обмениваются ими с помощью Lake Formation, мы рекомендуем более подробно изучить GoDaddy. децентрализованная сетка данных, Ново Нордиск современная архитектура данных, а также усовершенствования JPMorgan их Федеративное озеро данных, управляемая реализация сетки данных с использованием Lake Formation. Кроме того, вы можете узнать, как партнеры AWS интегрировались с Lake Formation, чтобы помочь клиентам создавать уникальные озера данных, в статье Starburst. решение сетки данных, Информатика автоматизированное решение для обмена данными, Ахана Интеграция Preto с Lake Formation, Восходящий обычай система управления данными, как использовалась PBS машинное обучение на своих озерах данных, и как hc1 обеспечивает персонализированная информация о здоровье для клиентов.
Вы можете просмотреть, как Lake Formation используется клиентами для создания современные архитектуры данных в следующих докладах re:Invent 2022:
Команда Lake Formation прислушалась к отзывам клиентов и внесла улучшения в области управления данными между учетными записями, расширения источника озер данных, обеспечения унифицированного управления данными каталога бизнес-данных, обеспечения безопасного обмена данными между предприятиями и расширение зоны покрытия для точного контроля доступа к Амазонка Redshift. В оставшейся части этого поста мы рады поделиться прогрессом, которого мы достигли в 2022 году.
Улучшение управления несколькими учетными записями
Lake Formation предоставляет клиентам основу для обмена данными между учетными записями в своей организации. Вы можете поделиться ресурсами каталога данных AWS Glue с Управление идентификацией и доступом AWS (IAM) в учетной записи, а также в других учетных записях AWS, используя два метода. Первый называется методом именованных ресурсов, когда пользователи могут выбирать имена баз данных и таблиц и выбирать тип разрешений для совместного использования. Второй метод использует LF-теги, где пользователи могут создавать и связывать LF-теги с базами данных и таблицами, а также предоставлять разрешения участникам IAM с помощью политик и выражений LF-тегов.
В ноябре 2022 года Lake Formation представила третью версию своего функция обмена между учетными записями. В этой новой версии пользователи Lake Formation могут совместно использовать ресурсы каталога, используя LF-теги в AWS Организации уровень. Совместное использование данных с помощью LF-тегов помогает масштабировать разрешения и сокращает административную работу разработчиков озера данных. Версия 3 совместного доступа между учетными записями также позволяет вам делиться ресурсами с определенными субъектами IAM в других учетных записях, предоставляя владельцам данных контроль над тем, кто может получить доступ к своим данным в других учетных записях. Наконец, мы устранили накладные расходы на написание и обслуживание политик ресурсов каталога данных, представив Диспетчер доступа к ресурсам AWS (AWS RAM) приглашает с политиками на основе LF-тегов в версии 3 совместного использования нескольких учетных записей. Мы рекомендуем вам подробнее изучить совместное использование нескольких аккаунтов в Lake Formation.
Расширение разрешений Lake Formation на новые данные
До re:Invent 2022 Lake Formation обеспечивала управление разрешениями для субъектов IAM в ресурсах каталога данных с базовыми данными в основном на Простой сервис хранения Amazon (Амазон С3). На re:Invent 2022 мы представили Управление разрешениями Lake Formation для общих ресурсов данных Amazon Redshift в режиме предварительного просмотра. Amazon Redshift — это полностью управляемый сервис хранилища данных петабайтного масштаба в облаке AWS. функция обмена данными позволяет владельцам данных группировать базы данных, таблицы и представления в кластере Amazon Redshift и совместно использовать их с другими кластерами Amazon Redshift внутри или между учетными записями AWS. Совместное использование данных снижает потребность в хранении нескольких копий одних и тех же данных в разных хранилищах данных для ускорения принятия бизнес-решений в организации. Lake Formation еще больше расширяет возможности совместного использования данных в общих ресурсах Amazon Redshift, обеспечивая детальное управление доступом к таблицам и представлениям.
Дополнительные сведения об этой функции см. Совместное использование данных Redshift, управляемое AWS Lake Formation (предварительная версия) и Как Lake Formation может управлять обменом данными Redshift.
Амазонка ЭМИ — это управляемая кластерная платформа для запуска приложений больших данных с использованием Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi и Presto в масштабе. Вы можете использовать Amazon EMR для запуска аналитических заданий пакетной и потоковой обработки в озерах данных S3. Начиная с версии Amazon EMR 6.7.0, мы представили Управление разрешениями Lake Formation для роли IAM во время выполнения используется с EMR Steps API. Эта функция позволяет отправлять приложения Apache Spark и Apache Hive в кластер EMR через EMR Steps API, который применяет разрешения на уровне таблицы и столбца с помощью Lake Formation для той роли IAM, которая отправляет приложение. Эта интеграция Lake Formation с Amazon EMR позволяет вам совместно использовать кластер EMR несколькими пользователями в организации с разными разрешениями, изолируя ваши приложения с помощью роли IAM во время выполнения. Мы рекомендуем вам проверить эту функцию в мастерской Lake Formation. Интеграция с Amazon EMR с использованием ролей среды выполнения. Чтобы изучить вариант использования, см. Представляем роли среды выполнения для этапов Amazon EMR: используйте роли IAM и AWS Lake Formation для управления доступом с помощью Amazon EMR..
Студия Amazon SageMaker — это полностью интегрированная среда разработки (IDE) для машинного обучения (ML), которая позволяет специалистам по данным и разработчикам подготавливать данные для построения, обучения, настройки и развертывания моделей. Studio предлагает нативную интеграцию с Amazon EMR, поэтому специалисты по данным и инженеры по данным могут интерактивно подготавливать данные в петабайтном масштабе, используя платформы с открытым исходным кодом, такие как Apache Spark, Presto и Hive, с помощью блокнотов Studio. С выпуском Управление разрешениями Lake Formation для роли IAM во время выполнения, Studio теперь поддерживает доступ на уровне таблиц и столбцов с помощью Lake Formation. Когда пользователи подключаются к кластерам EMR из записных книжек Studio, они могут выбрать роль IAM (называемую роль IAM во время выполнения), с которым они хотят связаться. Если доступ к данным управляется Lake Formation, пользователи могут применять разрешения на уровне таблиц и столбцов с помощью политик, прикрепленных к роли среды выполнения. Для получения более подробной информации см. Применяйте детализированные элементы управления доступом к данным с помощью AWS Lake Formation и Amazon EMR от Amazon SageMaker Studio..
Принимать и каталогизировать различные данные
Надежная модель управления данными включает данные из многих источников данных организации и методы для обнаружения и каталогизации этих разнообразных активов данных. Сканеры AWS Glue позволяют находить данные из таких источников, как базы данных Amazon S3, Amazon Redshift и NoSQL, и заполнять каталог данных AWS Glue.
В 2022 году мы запустили Поддержка сканера AWS Glue для Snowflake и Поддержка сканера AWS Glue для таблиц Delta Lake. Эти интеграции позволяют сканерам AWS Glue создавать и обновлять таблицы каталога данных на основе этих популярных источников данных. Это еще больше упрощает создание заданий извлечения, преобразования и загрузки (ETL) с помощью AWS Glue на основе этих таблиц каталога данных в качестве источников и целей.
В 2022 году пользовательский интерфейс сканеров AWS Glue был переработан, чтобы сделать его более удобным для пользователей. Одним из основных улучшений, представленных в рамках этой версии, является более глубокое понимание истории поискового робота AWS Glue. Пользовательский интерфейс истории сканера обеспечивает удобный просмотр запусков сканера, расписаний, источников данных и тегов. Для каждого сканирования история сканера предлагает сводку изменений в схеме базы данных или изменений раздела Amazon S3. История сканера также предоставляет подробную информацию о часах DPU и сокращает время, затрачиваемое на анализ и отладку операций сканера, а также расходы. Чтобы изучить новые функции, добавленные в пользовательский интерфейс сканеров, см. Настраивайте и отслеживайте поисковые роботы AWS Glue с помощью улучшенного пользовательского интерфейса AWS Glue и истории поисковых роботов..
В 2022 году мы также расширили поддержку сканеров на основе уведомлений о событиях Amazon S3 для поддержки таблиц каталога. С помощью этой функции добавочное сканирование может быть перенесено из конвейеров данных в запланированный краулер AWS Glue, что сокращает количество добавочных сканирований до добавочных событий S3. Для получения дополнительной информации см. Создавайте добавочные обходы озер данных с помощью существующих таблиц каталога Glue..
Дополнительные способы обмена данными за пределами озера данных
Во время re:Invent 2022 мы объявили о предварительном просмотре Обмен данными AWS для AWS Lake Formation, новая функция, которая позволяет подписчикам данных находить и подписываться на сторонние наборы данных, которые управляются непосредственно через Lake Formation. До сих пор, Обмен данными AWS подписчики могли получить доступ к сторонним наборам данных, экспортируя файлы провайдеров в свои корзины S3, вызывая API-интерфейсы провайдеров через Шлюз API Amazon, или запрашивая общие ресурсы данных Amazon Redshift производителей из их кластера Amazon Redshift. Благодаря новой интеграции Lake Formation поставщики данных курируют наборы данных AWS Data Exchange, используя теги Lake Formation. Подписчики данных могут запрашивать и просматривать базы данных и таблицы, связанные с этими тегами, как и любой другой ресурс каталога данных AWS Glue. Организации могут применять разрешения Lake Formation на основе ресурсов для совместного использования лицензированных наборов данных в рамках одной учетной записи или между учетными записями, используя Менеджер лицензий AWS. AWS Data Exchange для Lake Formation оптимизирует операции по лицензированию и совместному использованию данных за счет ускорения загрузки данных, сокращения объема ETL, необходимого конечным пользователям для доступа к сторонним данным, а также централизации управления и контроля доступа к сторонним данным.
На re:Invent 2022 мы также анонсировали Зона данных Amazon, новый сервис управления данными, который упрощает и ускоряет каталогизацию, обнаружение, совместное использование и управление данными, хранящимися в AWS, в локальной среде и в сторонних источниках. Amazon DataZone – это сервис каталога бизнес-данных, который дополняет технические метаданные в каталоге данных AWS Glue. Amazon DataZone интегрирован с системой управления разрешениями Lake Formation, поэтому вы можете эффективно управлять доступом к своим данным и контролировать, кто и к каким данным получает доступ и с какой целью. Модель Amazon DataZone «издатель-подписчик» позволяет обмениваться данными и получать доступ к ним из разных регионов. Дополнительные сведения об услуге и ее возможностях см. Часто задаваемые вопросы об Amazon DataZone и re:изобретать запуск.
Заключение
Данные трансформируют каждую область и каждый бизнес. Однако, учитывая, что данные растут быстрее, чем большинство компаний могут их отслеживать, сбор, защита и извлечение пользы из этих данных становится сложной задачей. Современная стратегия работы с данными может помочь вам достичь лучших бизнес-результатов с помощью данных. AWS предоставляет наиболее полный набор сервисов для сквозного перемещения данных, чтобы помочь вам извлечь пользу из ваших данных и превратить их в ценные сведения.
В AWS мы работаем в обратном направлении от требований клиентов. Команда Lake Formation усердно работала над тем, чтобы предоставить функции, описанные в этом посте, и приглашаем вас ознакомиться с ними. Мы постоянно стремимся к изобретательству и надеемся, что сможем сыграть ключевую роль в расширении возможностей организаций по созданию новых моделей управления данными, которые помогут вам получить больше преимуществ для бизнеса с молниеносной скоростью.
Вы можете начать работу с Lake Formation, изучив наш практический семинар модули и Учебники по началу работы. Мы с нетерпением ждем ваших отзывов, наших клиентов, о вашем озере данных и примерах использования управления данными. Свяжитесь со своей командой по работе с клиентами AWS и поделитесь своими комментариями.
Об авторах
Джейсон Берковиц является старшим менеджером по продуктам в AWS Lake Formation. Он имеет опыт работы в области машинного обучения и архитектуры озера данных. Он помогает клиентам стать управляемыми данными.
Аарти Шринивасан является старшим архитектором больших данных в AWS Lake Formation. Ей нравится создавать решения для озер данных для клиентов и партнеров AWS. В свободное от игры время она исследует последние тенденции науки и техники и проводит время со своей семьей.
Леонардо Гомес является старшим специалистом по аналитике, архитектором решений в AWS. Он живет в Торонто, Канада, и обладает более чем десятилетним опытом управления данными, помогая клиентам по всему миру удовлетворять их деловые и технические потребности.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- способность
- в состоянии
- О нас
- ускорять
- ускоряющий
- доступ
- Доступ к данным
- Доступ
- доступа
- Учетная запись
- Учетные записи
- через
- добавленный
- дополнение
- дополнительный
- адрес
- Администратор
- плюс
- позволяет
- Amazon
- Амазонка ЭМИ
- Создатель мудреца Амазонки
- количество
- аналитика
- анализ
- и
- объявило
- апаш
- Apache Spark
- API
- API
- Применение
- Приложения
- Применить
- соответствующий
- архитектура
- ПЛОЩАДЬ
- области
- около
- Активы
- Юрист
- связанный
- аудит
- AWS
- Клей AWS
- Формирование озера AWS
- AWS Re: Invent
- фон
- основанный
- становиться
- Лучшая
- Beyond
- большой
- Big Data
- строить
- строитель
- Строители
- Строительство
- построенный
- бизнес
- бизнес для бизнеса
- под названием
- вызова
- Может получить
- Канада
- возможности
- случаев
- случаев
- каталог
- CCPA
- проблемы
- сложные
- изменения
- проверка
- Китай
- Выберите
- облако
- Кластер
- Сбор
- лыжных шлемов
- Комментарии
- Компании
- конкурентоспособный
- полный
- комплекс
- комплексный
- Свяжитесь
- продолжающийся
- контроль
- контрольная
- Расходы
- может
- охват
- гусеничный
- Создайте
- изготовленный на заказ
- клиент
- Клиенты
- данным
- доступ к данным
- инженер данных
- Обмен данными
- Озеро данных
- управление данными
- Платформа данных
- конфиденциальность данных
- Качество данных
- ученый данных
- обмен данными
- стратегия данных
- информационное хранилище
- хранилища данных
- управляемых данными
- База данных
- базы данных
- Наборы данных
- десятилетие
- Принятие решений
- более глубокий
- доставить
- поставляется
- Delta
- развертывание
- описано
- подробный
- подробнее
- застройщиков
- Разработка
- различный
- непосредственно
- обнаружить
- каждый
- легче
- Эффективный
- фактически
- расширение прав и возможностей
- позволяет
- позволяет
- поощрять
- впритык
- инженер
- Инженеры
- расширение
- Усиливает
- обеспечивать
- обеспечение
- Окружающая среда
- Эфир (ETH)
- EU
- Даже
- События
- События
- Каждая
- обмена
- возбужденный
- существующий
- расширяющийся
- опыт
- Больше
- Исследование
- выражения
- извлечение
- семья
- быстрее
- Особенность
- Особенности
- Обратная связь
- несколько
- поле
- Файлы
- Найдите
- конец
- First
- Фокус
- после
- образование
- вперед
- Год основания
- каркасы
- от
- полностью
- функциональные возможности
- далее
- GDPR
- порождающий
- получить
- получающий
- земной шар
- будет
- управление
- предоставлять
- большой
- группы
- Рост
- Управляемость
- счастливый
- Жесткий
- Медицина
- слух
- помощь
- помощь
- помогает
- история
- Hive
- надежды
- ЧАСЫ
- Как
- Однако
- HTML
- HTTPS
- IAM
- Личность
- реализация
- важную
- улучшение
- улучшается
- улучшение
- in
- В других
- включает в себя
- В том числе
- Увеличивает
- все больше и больше
- info
- информация
- понимание
- размышления
- интегрированный
- интеграции.
- интеграций
- заинтересованный
- выпустили
- введение
- приглашать
- IT
- Джобс
- путешествие
- Сохранить
- Основные
- озеро
- последний
- запустили
- лидер
- УЧИТЬСЯ
- изучение
- уровень
- Лицензия
- Лицензирована
- Лицензирование
- молния
- Скорость молнии
- загрузка
- посмотреть
- машина
- обучение с помощью машины
- сделанный
- Главная
- ДЕЛАЕТ
- Создание
- управлять
- управляемого
- управление
- менеджер
- многих
- Метаданные
- метод
- методы
- ML
- режим
- модель
- Модели
- Модерн
- Модули
- монитор
- БОЛЕЕ
- самых
- с разными
- имена
- родной
- Необходимость
- потребности
- Новые
- Новая функция
- ноутбуки
- Уведомления
- Ноябрь
- Новое
- обязательства
- предлагают
- Предложения
- Вводный
- ONE
- с открытым исходным кодом
- Операционный отдел
- Возможность
- организация
- организации
- Другие контрактные услуги
- собственный
- Владельцы
- часть
- партнеры
- PBS
- разрешение
- Разрешения
- петабайт
- Платформа
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- пожалуйста
- сборах
- Популярное
- «портфель»
- возможное
- После
- Подготовить
- представлены
- предварительный просмотр
- в первую очередь
- политикой конфиденциальности.
- Процессы
- обработка
- Продукт
- Менеджер по продукции
- Прогресс
- обеспечивать
- при условии
- поставщики
- приводит
- обеспечение
- опубликованный
- цель
- Оперативная память
- RE
- признавать
- рекомендовать
- снижает
- снижение
- районы
- правила
- регуляторы
- освободить
- удален
- обязательный
- Требования
- ресурс
- Полезные ресурсы
- ОТДЫХ
- обзоре
- Снижение
- надежный
- Роли
- роли
- Run
- Россия
- sagemaker
- то же
- Шкала
- считаться
- Наука
- Наука и технологии
- Ученый
- Ученые
- легко
- Во-вторых
- безопасный
- обеспечение
- старший
- обслуживание
- Услуги
- набор
- Поделиться
- общие
- Акции
- разделение
- просто
- So
- Решение
- Решения
- Решение
- некоторые
- Источник
- Источники
- Искриться
- специалист
- конкретный
- скорость
- потраченный
- заинтересованных сторон
- звездообразования
- и политические лидеры
- Начало
- Шаги
- диск
- хранить
- Стратегия
- поток
- студия
- отправить
- подписаться
- Абоненты
- такие
- суммировать
- РЕЗЮМЕ
- поддержка
- Поддержка
- системы
- переговоры
- направлена против
- команда
- команды
- Технический
- Технологии
- Ассоциация
- Источник
- их
- задача
- сторонние
- Через
- по всему
- время
- в
- Торонто
- трогать
- трек
- Обучение
- Transform
- превращение
- Тенденции
- ОЧЕРЕДЬ
- ui
- лежащий в основе
- понимать
- унифицированный
- созданного
- отпереть
- Обновление ПО
- использование
- прецедент
- Информация о пользователе
- Пользовательский опыт
- пользователей
- ценностное
- версия
- Вид
- Просмотры
- Склады
- способы
- Что
- будь то
- КТО
- в
- Работа
- работавший
- семинар
- Семинары
- письмо
- год
- ВАШЕ
- YouTube
- зефирнет