A governança de dados é a coleção de políticas, processos e sistemas que as organizações usam para garantir a qualidade e o tratamento adequado de seus dados ao longo de seu ciclo de vida com o objetivo de gerar valor comercial. A governança de dados é cada vez mais importante para os clientes, pois eles reconhecem os dados como um de seus ativos mais importantes. A governança de dados eficaz permite uma melhor tomada de decisão, melhorando a qualidade dos dados, reduzindo os custos de gerenciamento de dados e garantindo o acesso seguro aos dados para as partes interessadas. Além disso, a governança de dados é necessária para cumprir um ambiente regulatório cada vez mais complexo com privacidade de dados (como GDPR e CCPA) e regulamentos de residência de dados (como na UE, Rússia e China).
Para os clientes da AWS, a governança de dados eficaz melhora a tomada de decisões, aumenta a agilidade dos negócios, oferece uma vantagem competitiva e reduz o risco de multas devido à não conformidade com as obrigações regulatórias. Entendemos a oportunidade única de fornecer aos nossos clientes uma solução abrangente de governança de dados de ponta a ponta, perfeitamente integrada ao nosso portfólio de serviços e Formação AWS Lake e os votos de Catálogo de dados do AWS Glue são fundamentais para resolver esses desafios.
Nesta postagem, temos o prazer de resumir os recursos que as equipes do AWS Glue Data Catalog, AWS Glue crawler e Lake Formation forneceram em 2022. Reunimos algumas das principais palestras e soluções sobre governança de dados, malha de dados e dados modernos arquitetura publicada e apresentada no AWS re:Invent 2022 e algumas soluções de data lake criadas por clientes e parceiros da AWS para fácil referência. Se você é um construtor de plataforma de dados, engenheiro de dados, cientista de dados ou qualquer líder de tecnologia interessado em soluções de data lake, esta postagem é para você.
Para saber mais sobre como os clientes estão protegendo e compartilhando dados com a Lake Formation, recomendamos ir mais fundo no GoDaddy's malha de dados descentralizada, Novo Nordisk arquitetura de dados moderna, e as melhorias do JPMorgan em seus Data Lake Federado, uma implementação de malha de dados governada usando Lake Formation. Além disso, você pode aprender como os parceiros da AWS se integraram ao Lake Formation para ajudar os clientes a criar data lakes exclusivos, no Starburst's solução de malha de dados, da Informatica solução automatizada de compartilhamento de dados, de Ahana Integração Presto com Lake Formation, Costume Ascendente sistema de governança de dados, como PBS usado aprendizado de máquina em seus data lakes, e como hc1 fornece informações de saúde personalizadas para clientes.
Você pode revisar como o Lake Formation é usado pelos clientes para construir arquiteturas de dados modernas nas seguintes palestras do re:Invent 2022:
A equipe da Lake Formation ouviu o feedback dos clientes e fez melhorias nas áreas de governança de dados entre contas, expandindo a fonte de data lakes, permitindo a governança de dados unificada de um catálogo de dados corporativos, tornando possível o compartilhamento seguro de dados entre empresas e expandindo a área de cobertura para controles de acesso refinados para Amazon RedShift. No restante deste post, temos o prazer de compartilhar o progresso que fizemos em 2022.
Melhorando a governança entre contas
A Lake Formation fornece a base para os clientes compartilharem dados entre contas dentro de sua organização. Você pode compartilhar recursos do Catálogo de dados do AWS Glue para Gerenciamento de acesso e identidade da AWS (IAM) dentro de uma conta, bem como outras contas da AWS usando dois métodos. O primeiro é chamado de método de recurso nomeado, onde os usuários podem selecionar os nomes dos bancos de dados e tabelas e escolher o tipo de permissões para compartilhar. O segundo método usa LF-Tags, onde os usuários podem criar e associar LF-Tags a bancos de dados e tabelas e conceder permissão aos principais do IAM usando políticas e expressões de LF-Tag.
Em novembro de 2022, a Lake Formation apresentou a versão 3 de seu recurso de compartilhamento entre contas. Com esta nova versão, os usuários do Lake Formation podem compartilhar recursos de catálogo usando LF-Tags no Organizações da AWS nível. O compartilhamento de dados usando tags LF ajuda a escalar as permissões e reduz o trabalho administrativo para criadores de data lake. A versão 3 de compartilhamento entre contas também permite que você compartilhe recursos com principais IAM específicos em outras contas, fornecendo aos proprietários de dados controle sobre quem pode acessar seus dados em outras contas. Por fim, removemos a sobrecarga de escrever e manter as políticas de recursos do Catálogo de Dados, introduzindo Gerenciador de acesso a recursos da AWS (AWS RAM) convida com políticas baseadas em LF-Tags na versão 3 de compartilhamento entre contas. Incentivamos você a explorar mais compartilhamento entre contas em Lake Formation.
Estendendo as permissões do Lake Formation para novos dados
Até o re:Invent 2022, a Lake Formation fornecia gerenciamento de permissões para entidades IAM em recursos do Catálogo de Dados com dados subjacentes principalmente em Serviço de armazenamento simples da Amazon (Amazônia S3). No re:Invent 2022, apresentamos Gerenciamento de permissões do Lake Formation para compartilhamentos de dados do Amazon Redshift no modo de visualização. O Amazon Redshift é um serviço de armazenamento de dados em escala de petabytes totalmente gerenciado na Nuvem AWS. o recurso de compartilhamento de dados permite que os proprietários de dados agrupem bancos de dados, tabelas e exibições em um cluster do Amazon Redshift e os compartilhem com outros clusters do Amazon Redshift dentro ou entre contas da AWS. O compartilhamento de dados reduz a necessidade de manter várias cópias dos mesmos dados em diferentes armazéns de dados para acelerar a tomada de decisões de negócios em uma organização. O Lake Formation aprimora ainda mais o compartilhamento de dados nos compartilhamentos de dados do Amazon Redshift, fornecendo controle de acesso refinado em tabelas e exibições.
Para obter detalhes adicionais sobre esse recurso, consulte Compartilhamentos de dados do Redshift gerenciados pelo AWS Lake Formation (visualização) e Como o compartilhamento de dados do Redshift pode ser gerenciado pelo Lake Formation.
Amazon EMR é uma plataforma de cluster gerenciada para executar aplicativos de big data usando Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi e Presto em escala. Você pode usar o Amazon EMR para executar trabalhos analíticos de processamento em lote e fluxo em seus data lakes S3. A partir da versão 6.7.0 do Amazon EMR, apresentamos Gerenciamento de permissões do Lake Formation em uma função IAM de tempo de execução usado com a API de etapas do EMR. Esse recurso permite que você envie aplicativos Apache Spark e Apache Hive para um cluster EMR por meio da API EMR Steps que impõe permissões em nível de tabela e coluna usando Lake Formation para essa função do IAM que está enviando o aplicativo. Essa integração do Lake Formation com o Amazon EMR permite que você compartilhe um cluster EMR entre vários usuários em uma organização com permissões diferentes, isolando seus aplicativos por meio de uma função IAM de tempo de execução. Incentivamos você a verificar esse recurso no workshop Formação do lago Integração com o Amazon EMR usando funções de tempo de execução. Para explorar um caso de uso, consulte Apresentando funções de tempo de execução para etapas do Amazon EMR: use funções do IAM e AWS Lake Formation para controle de acesso com Amazon EMR.
Estúdio Amazon SageMaker é um ambiente de desenvolvimento (IDE) totalmente integrado para aprendizado de máquina (ML) que permite que cientistas de dados e desenvolvedores preparem dados para construir, treinar, ajustar e implantar modelos. O Studio oferece uma integração nativa com o Amazon EMR para que cientistas e engenheiros de dados possam preparar dados de forma interativa em escala de petabytes usando estruturas de código aberto como Apache Spark, Presto e Hive usando notebooks Studio. Com o lançamento de Gerenciamento de permissões do Lake Formation em uma função IAM de tempo de execução, o Studio agora suporta acesso em nível de tabela e em nível de coluna com o Lake Formation. Quando os usuários se conectam a clusters EMR de notebooks Studio, eles podem escolher a função IAM (chamada de função IAM de tempo de execução) com os quais desejam se conectar. Se o acesso aos dados for gerenciado pelo Lake Formation, os usuários poderão impor permissões em nível de tabela e em nível de coluna usando políticas anexadas à função de tempo de execução. Para mais detalhes, consulte Aplique controles de acesso a dados refinados com AWS Lake Formation e Amazon EMR do Amazon SageMaker Studio.
Ingerir e catalogar dados variados
Um modelo robusto de governança de dados inclui dados de várias fontes de dados de uma organização e métodos para descobrir e catalogar esses diversos ativos de dados. Os rastreadores do AWS Glue fornecem a capacidade de descobrir dados de fontes, incluindo bancos de dados Amazon S3, Amazon Redshift e NoSQL, e preencher o Catálogo de dados do AWS Glue.
Em 2022, lançamos Suporte do crawler do AWS Glue para Snowflake e Suporte ao crawler do AWS Glue para tabelas Delta Lake. Essas integrações permitem que os rastreadores do AWS Glue criem e atualizem tabelas do Catálogo de dados com base nessas fontes de dados populares. Isso facilita ainda mais a criação de trabalhos de extração, transformação e carregamento (ETL) com o AWS Glue com base nessas tabelas do Catálogo de dados como origens e destinos.
Em 2022, a IU dos crawlers do AWS Glue foi redesenhada para oferecer uma melhor experiência ao usuário. Um dos principais aprimoramentos fornecidos como parte desta revisão são os maiores insights sobre o histórico do crawler do AWS Glue. A IU do histórico do rastreador fornece uma visualização fácil das execuções, programações, fontes de dados e tags do rastreador. Para cada rastreamento, o histórico do rastreador oferece um resumo das alterações no esquema do banco de dados ou alterações na partição do Amazon S3. O histórico do rastreador também fornece informações detalhadas sobre as horas de DPU e reduz o tempo gasto analisando e depurando operações e custos do rastreador. Para explorar as novas funcionalidades adicionadas à interface do usuário dos rastreadores, consulte Configurar e monitorar rastreadores do AWS Glue usando a IU aprimorada do AWS Glue e o histórico do rastreador.
Em 2022, também estendemos o suporte para rastreadores baseados em notificações de eventos do Amazon S3 para oferecer suporte a tabelas de catálogo. Com esse recurso, o rastreamento incremental pode ser descarregado dos pipelines de dados para o rastreador agendado do AWS Glue, reduzindo os rastreamentos para eventos S3 incrementais. Para mais informações, consulte Crie rastreamentos incrementais de data lakes com tabelas de catálogo Glue existentes.
Mais maneiras de compartilhar dados além do data lake
Durante o re:Invent 2022, anunciamos uma prévia do Troca de dados da AWS para AWS Lake Formation, um novo recurso que permite que os assinantes de dados encontrem e assinem conjuntos de dados de terceiros gerenciados diretamente por meio do Lake Formation. Até agora, Troca de dados da AWS os assinantes podem acessar conjuntos de dados de terceiros exportando os arquivos dos provedores para seus próprios buckets S3, chamando as APIs dos provedores por meio de Gateway de API da Amazon, ou consultando os compartilhamentos de dados do Amazon Redshift dos produtores de seu cluster do Amazon Redshift. Com a nova integração do Lake Formation, os provedores de dados selecionam conjuntos de dados do AWS Data Exchange usando tags do Lake Formation. Os assinantes de dados podem consultar e explorar os bancos de dados e tabelas associados a essas tags, assim como qualquer outro recurso do Catálogo de dados do AWS Glue. As organizações podem aplicar permissões Lake Formation baseadas em recursos para compartilhar os conjuntos de dados licenciados na mesma conta ou entre contas usando Gerenciador de licenças da AWS. O AWS Data Exchange for Lake Formation simplifica as operações de licenciamento e compartilhamento de dados, acelerando a integração de dados, reduzindo a quantidade de ETL necessária para que os usuários finais acessem dados de terceiros e centralizando a governança e os controles de acesso para dados de terceiros.
No re:Invent 2022, também anunciamos Zona de dados da Amazon, um novo serviço de gerenciamento de dados que torna mais rápido e fácil catalogar, descobrir, compartilhar e controlar dados armazenados na AWS, no local e em fontes de terceiros. O Amazon DataZone é um serviço de catálogo de dados corporativos que complementa os metadados técnicos no Catálogo de dados do AWS Glue. O Amazon DataZone é integrado ao gerenciamento de permissões do Lake Formation para que você possa gerenciar e controlar o acesso aos seus dados com eficácia e auditar quem está acessando quais dados e para qual finalidade. Com o modelo de editor-assinante do Amazon DataZone, os ativos de dados podem ser compartilhados e acessados entre regiões. Para obter detalhes adicionais sobre o serviço e seus recursos, consulte o Perguntas frequentes do Amazon DataZone e re: Lançamento do Invent.
Conclusão
Os dados estão transformando todos os campos e todos os negócios. No entanto, com os dados crescendo mais rápido do que a maioria das empresas pode acompanhar, coletar, proteger e obter valor desses dados é algo desafiador. Uma estratégia de dados moderna pode ajudá-lo a criar melhores resultados de negócios com dados. A AWS fornece o conjunto mais completo de serviços para a jornada de dados de ponta a ponta para ajudá-lo a extrair valor de seus dados e transformá-los em insights.
Na AWS, trabalhamos de trás para frente a partir dos requisitos do cliente. Da equipe do Lake Formation, trabalhamos muito para entregar os recursos descritos neste post e convidamos você a dar uma olhada. Com nosso foco contínuo em inventar, esperamos desempenhar um papel fundamental ao capacitar as organizações a criar novos modelos de governança de dados que ajudem você a obter mais valor comercial na velocidade da luz.
Você pode começar com o Lake Formation explorando nosso oficina prática módulos e Tutoriais de primeiros passos. Estamos ansiosos para ouvir vocês, nossos clientes, sobre seus casos de uso de data lake e governança de dados. Entre em contato por meio de sua equipe de contas da AWS e compartilhe seus comentários.
Sobre os autores
Jason Berkowitz é gerente de produto sênior da AWS Lake Formation. Ele tem experiência em aprendizado de máquina e arquiteturas de data lake. Ele ajuda os clientes a se tornarem orientados por dados.
Aarthi Srinivasan é arquiteto sênior de Big Data na AWS Lake Formation. Ela gosta de criar soluções de data lake para clientes e parceiros da AWS. Quando não está no teclado, ela explora as últimas tendências de ciência e tecnologia e passa o tempo com sua família.
Leonardo Gomez é um arquiteto de soluções especialista em análise sênior na AWS. Com sede em Toronto, Canadá, ele tem mais de uma década de experiência em gerenciamento de dados, ajudando clientes em todo o mundo a atender suas necessidades comerciais e técnicas.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- habilidade
- Capaz
- Sobre
- acelerar
- acelerando
- Acesso
- Acesso a dados
- acessadas
- acessando
- Conta
- Contas
- em
- adicionado
- Adição
- Adicional
- endereço
- admin
- Vantagem
- permite
- Amazon
- Amazon EMR
- Amazon Sage Maker
- quantidade
- analítica
- análise
- e
- anunciou
- apache
- Apache Spark
- api
- APIs
- Aplicação
- aplicações
- Aplicar
- apropriado
- arquitetura
- ÁREA
- áreas
- por aí
- Ativos
- Jurídico
- associado
- auditor
- AWS
- Cola AWS
- Formação AWS Lake
- AWS re: Invent
- fundo
- baseado
- tornam-se
- Melhor
- Pós
- Grande
- Big Data
- construir
- construtor
- construtores
- Prédio
- construído
- negócio
- de empresa para empresa
- chamado
- chamada
- Pode obter
- Localização: Canadá
- capacidades
- casas
- casos
- catálogo
- CCPA
- desafios
- desafiante
- Alterações
- verificar
- China
- Escolha
- Na nuvem
- Agrupar
- Coleta
- coleção
- comentários
- Empresas
- competitivo
- completar
- integrações
- compreensivo
- CONTATE-NOS
- continuou
- ao controle
- controles
- custos
- poderia
- cobertura
- rastreador
- crio
- personalizadas
- cliente
- Clientes
- dados,
- acesso a dados
- engenheiro de dados
- Data Exchange
- lago data
- gestão de dados
- Plataforma de dados
- privacidade de dados
- qualidade de dados
- cientista de dados
- compartilhamento de dados
- estratégia de dados
- data warehouse
- armazéns de dados
- orientado por dados
- banco de dados
- bases de dados
- conjuntos de dados
- década
- Tomada de Decisão
- mais profunda
- entregar
- entregue
- Delta
- Implantação
- descrito
- detalhado
- detalhes
- desenvolvedores
- Desenvolvimento
- diferente
- diretamente
- descobrir
- cada
- mais fácil
- Eficaz
- efetivamente
- capacitação
- permite
- permitindo
- encorajar
- end-to-end
- engenheiro
- Engenheiros
- aprimorada
- Melhora
- garantir
- assegurando
- Meio Ambiente
- Éter (ETH)
- EU
- Mesmo
- Evento
- eventos
- Cada
- exchange
- animado
- existente
- expansão
- vasta experiência
- explorar
- Explorando
- expressões
- extrato
- família
- mais rápido
- Característica
- Funcionalidades
- retornos
- poucos
- campo
- Arquivos
- Encontre
- final
- Primeiro nome
- Foco
- seguinte
- treinamento
- para a frente
- Foundation
- enquadramentos
- da
- totalmente
- funcionalidades
- mais distante
- RGPD
- gerando
- ter
- obtendo
- globo
- vai
- governo
- conceder
- maior
- Grupo
- Crescente
- Manipulação
- feliz
- Queijos duros
- Saúde
- audição
- ajudar
- ajuda
- ajuda
- história
- Colméia
- esperança
- HORÁRIO
- Como funciona o dobrador de carta de canal
- Contudo
- HTML
- HTTPS
- IAM
- Dados de identificação:
- implementação
- importante
- melhorias
- melhora
- melhorar
- in
- Em outra
- inclui
- Incluindo
- Aumenta
- cada vez mais
- info
- INFORMAÇÕES
- introspecção
- insights
- integrado
- integração
- integrações
- interessado
- introduzido
- introduzindo
- convidar
- IT
- Empregos
- viagem
- Guarda
- Chave
- lago
- mais recente
- lançado
- líder
- APRENDER
- aprendizagem
- Nível
- Licença
- Licenciado
- Licenciamento
- relâmpago
- Velocidade da luz
- carregar
- olhar
- máquina
- aprendizado de máquina
- moldadas
- a Principal
- FAZ
- Fazendo
- gerencia
- gerenciados
- de grupos
- Gerente
- muitos
- metadados
- método
- métodos
- ML
- Moda
- modelo
- modelos
- EQUIPAMENTOS
- Módulos
- Monitore
- mais
- a maioria
- múltiplo
- nomes
- nativo
- você merece...
- Cria
- Novo
- novo recurso
- laptops
- notificações
- Novembro
- Novo
- títulos
- oferecer
- Oferece
- Onboarding
- ONE
- open source
- Operações
- Oportunidade
- organização
- organizações
- Outros
- próprio
- proprietários
- parte
- Parceiros
- PBS
- permissão
- permissões
- petabyte
- plataforma
- platão
- Inteligência de Dados Platão
- PlatãoData
- Jogar
- por favor
- políticas
- Popular
- pasta
- possível
- Publique
- Preparar
- apresentado
- visualização
- principalmente
- política de privacidade
- processos
- em processamento
- Produto
- gerente de produto
- Progresso
- fornecer
- fornecido
- fornecedores
- fornece
- fornecendo
- publicado
- propósito
- qualidade
- RAM
- RE
- reconhecer
- recomendar
- reduz
- redução
- regiões
- regulamentos
- reguladores
- liberar
- Removido
- requeridos
- Requisitos
- recurso
- Recursos
- DESCANSO
- rever
- Risco
- uma conta de despesas robusta
- Tipo
- papéis
- Execute
- Rússia
- sábio
- mesmo
- Escala
- programado
- Ciência
- Ciência e Tecnologia
- Cientista
- cientistas
- sem problemas
- Segundo
- seguro
- assegurando
- senior
- serviço
- Serviços
- conjunto
- Partilhar
- compartilhado
- ações
- compartilhando
- simples
- So
- solução
- Soluções
- Resolvendo
- alguns
- fonte
- Fontes
- Faísca
- especialista
- específico
- velocidade
- gasto
- partes interessadas
- starburst
- começado
- Comece
- Passos
- armazenamento
- armazenadas
- Estratégia
- transmitir canais
- estudo
- enviar
- Inscreva-se
- assinantes
- tal
- resumir
- RESUMO
- ajuda
- suportes
- sistemas
- negociações
- tem como alvo
- Profissionais
- equipes
- Dados Técnicos:
- Equipar
- A
- A fonte
- deles
- coisa
- De terceiros
- Através da
- todo
- tempo
- para
- Toronto
- tocar
- pista
- Training
- Transformar
- transformando
- Tendências
- VIRAR
- ui
- subjacente
- compreender
- unificado
- único
- destravar
- Atualizar
- usar
- caso de uso
- Utilizador
- Experiência do Usuário
- usuários
- valor
- versão
- Ver
- visualizações
- Armazém
- maneiras
- O Quê
- se
- QUEM
- dentro
- Atividades:
- trabalhou
- oficina
- Workshops
- escrita
- ano
- investimentos
- Youtube
- zefirnet