Tata kelola data adalah kumpulan kebijakan, proses, dan sistem yang digunakan organisasi untuk memastikan kualitas dan penanganan yang tepat atas data mereka sepanjang siklus hidupnya untuk tujuan menghasilkan nilai bisnis. Tata kelola data semakin menjadi perhatian utama pelanggan karena mereka mengenali data sebagai salah satu aset terpenting mereka. Tata kelola data yang efektif memungkinkan pengambilan keputusan yang lebih baik dengan meningkatkan kualitas data, mengurangi biaya pengelolaan data, dan memastikan akses yang aman ke data bagi pemangku kepentingan. Selain itu, tata kelola data diharuskan untuk mematuhi lingkungan peraturan yang semakin kompleks dengan privasi data (seperti GDPR dan CCPA) dan peraturan residensi data (seperti di UE, Rusia, dan China).
Untuk pelanggan AWS, tata kelola data yang efektif meningkatkan pengambilan keputusan, meningkatkan ketangkasan bisnis, memberikan keunggulan kompetitif, dan mengurangi risiko denda karena ketidakpatuhan terhadap kewajiban peraturan. Kami memahami peluang unik untuk menyediakan pelanggan kami solusi tata kelola data end-to-end yang komprehensif yang diintegrasikan dengan mulus ke dalam portofolio layanan kami, dan Formasi Danau AWS dan Katalog Data AWS Glue adalah kunci untuk memecahkan tantangan ini.
Dalam postingan ini, kami dengan senang hati merangkum fitur-fitur yang disampaikan oleh tim AWS Glue Data Catalog, AWS Glue crawler, dan Lake Formation pada tahun 2022. Kami telah mengumpulkan beberapa pembicaraan utama dan solusi tentang tata kelola data, data mesh, dan data modern arsitektur diterbitkan dan disajikan di AWS re:Invent 2022, dan beberapa solusi data lake yang dibuat oleh pelanggan dan Partner AWS untuk referensi mudah. Apakah Anda seorang pembuat platform data, insinyur data, ilmuwan data, atau pemimpin teknologi mana pun yang tertarik dengan solusi data lake, postingan ini cocok untuk Anda.
Untuk mempelajari selengkapnya tentang cara pelanggan mengamankan dan berbagi data dengan Lake Formation, kami sarankan untuk mempelajari GoDaddy lebih dalam jala data terdesentralisasi, Novo Nordisk's arsitektur data modern, dan peningkatan JPMorgan untuk Danau Data Federasi, implementasi data mesh yang diatur menggunakan Lake Formation. Selain itu, Anda dapat mempelajari bagaimana Mitra AWS terintegrasi dengan Lake Formation untuk membantu pelanggan membangun data lake yang unik, di Starburst's solusi jaringan data, Informatika solusi berbagi data otomatis, milik Ahana Integrasi presto dengan Formasi Danau, Kebiasaan naik sistem tata kelola data, bagaimana PBS digunakan pembelajaran mesin di danau data mereka, dan bagaimana hc1 menyediakan wawasan kesehatan pribadi untuk pelanggan.
Anda dapat meninjau bagaimana Lake Formation digunakan oleh pelanggan untuk membangun arsitektur data modern dalam pembicaraan re:Invent 2022 berikut:
Tim Lake Formation mendengarkan umpan balik pelanggan dan melakukan peningkatan di bidang tata kelola data lintas akun, memperluas sumber data lake, memungkinkan tata kelola data terpadu dari katalog data bisnis, memungkinkan berbagi data bisnis-ke-bisnis yang aman, dan memperluas area cakupan untuk kontrol akses berbutir halus Pergeseran Merah Amazon. Di sisa postingan ini, kami dengan senang hati membagikan kemajuan yang kami buat di tahun 2022.
Meningkatkan tata kelola lintas akun
Lake Formation menyediakan landasan bagi pelanggan untuk berbagi data di seluruh akun dalam organisasi mereka. Anda dapat membagikan sumber daya Katalog Data AWS Glue ke Identitas AWS dan Manajemen Akses (IAM) prinsipal dalam akun serta akun AWS lainnya menggunakan dua metode. Yang pertama disebut metode sumber daya bernama, di mana pengguna dapat memilih nama database dan tabel dan memilih jenis izin untuk dibagikan. Metode kedua menggunakan LF-Tag, di mana pengguna dapat membuat dan mengaitkan LF-Tag ke database dan tabel serta memberikan izin kepada prinsipal IAM menggunakan kebijakan dan ekspresi LF-Tag.
Pada November 2022, Lake Formation memperkenalkan versi 3-nya fitur berbagi lintas akun. Dengan versi baru ini, pengguna Lake Formation dapat berbagi sumber daya katalog menggunakan LF-Tags di Organisasi AWS tingkat. Berbagi data menggunakan tag LF membantu menskalakan izin dan mengurangi pekerjaan admin untuk pembuat data lake. Berbagi lintas akun versi 3 juga memungkinkan Anda untuk berbagi sumber daya ke prinsipal IAM tertentu di akun lain, memberikan pemilik data kontrol atas siapa yang dapat mengakses data mereka di akun lain. Terakhir, kami telah menghilangkan biaya penulisan dan pemeliharaan kebijakan sumber daya Data Catalog dengan memperkenalkan Manajer Akses Sumber Daya AWS (AWS RAM) mengundang dengan kebijakan berbasis LF-Tag dalam versi berbagi lintas akun 3. Kami mendorong Anda untuk mempelajari lebih lanjut berbagi lintas akun di Lake Formation.
Memperluas izin Lake Formation ke data baru
Hingga re:Invent 2022, Lake Formation memberikan manajemen izin untuk prinsipal IAM pada sumber daya Data Catalog dengan data pokok terutama pada Layanan Penyimpanan Sederhana Amazon (Amazon S3). Di re:Invent 2022, kami memperkenalkan Manajemen izin Lake Formation untuk pembagian data Amazon Redshift dalam mode pratinjau. Amazon Redshift adalah layanan gudang data berskala petabyte yang terkelola sepenuhnya di AWS Cloud. Itu fitur berbagi data memungkinkan pemilik data untuk mengelompokkan database, tabel, dan tampilan di klaster Amazon Redshift dan membagikannya dengan klaster Amazon Redshift lainnya di dalam atau di seluruh akun AWS. Berbagi data mengurangi kebutuhan untuk menyimpan banyak salinan dari data yang sama di gudang data yang berbeda untuk mempercepat pengambilan keputusan bisnis di seluruh organisasi. Lake Formation lebih lanjut meningkatkan pembagian data dalam pembagian data Amazon Redshift dengan menyediakan kontrol akses terperinci pada tabel dan tampilan.
Untuk detail tambahan tentang fitur ini, lihat Berbagi data Redshift yang dikelola AWS Lake Formation (pratinjau) dan Bagaimana pembagian data Redshift dapat dikelola oleh Lake Formation.
Amazon ESDM adalah platform klaster terkelola untuk menjalankan aplikasi big data menggunakan Apache Spark, Apache Hive, Apache HBase, Apache Flink, Apache Hudi, dan Presto dalam skala besar. Anda dapat menggunakan Amazon EMR untuk menjalankan tugas analitik pemrosesan batch dan streaming di data lake S3 Anda. Dimulai dengan rilis Amazon EMR 6.7.0, kami memperkenalkan Manajemen izin Lake Formation pada peran IAM runtime digunakan dengan EMR Steps API. Fitur ini memungkinkan Anda mengirimkan aplikasi Apache Spark dan Apache Hive ke klaster EMR melalui EMR Steps API yang menerapkan izin tingkat tabel dan tingkat kolom menggunakan Lake Formation ke peran IAM yang mengirimkan aplikasi. Integrasi Lake Formation dengan Amazon EMR ini memungkinkan Anda berbagi klaster EMR ke beberapa pengguna dalam organisasi dengan izin berbeda dengan mengisolasi aplikasi Anda melalui peran IAM runtime. Kami mendorong Anda untuk memeriksa fitur ini di bengkel Formasi Danau Integrasi dengan Amazon EMR menggunakan Runtime Roles. Untuk menjelajahi kasus penggunaan, lihat Memperkenalkan peran waktu proses untuk langkah-langkah Amazon EMR: Gunakan peran IAM dan AWS Lake Formation untuk kontrol akses dengan Amazon EMR.
Studio Amazon SageMaker adalah lingkungan pengembangan terintegrasi penuh (IDE) untuk pembelajaran mesin (ML) yang memungkinkan ilmuwan data dan pengembang menyiapkan data untuk membangun, melatih, menyetel, dan menerapkan model. Studio menawarkan integrasi asli dengan Amazon EMR sehingga ilmuwan data dan insinyur data dapat menyiapkan data secara interaktif dalam skala petabyte menggunakan kerangka kerja sumber terbuka seperti Apache Spark, Presto, dan Hive menggunakan notebook Studio. Dengan dirilisnya Manajemen izin Lake Formation pada peran IAM runtime, Studio kini mendukung akses tingkat tabel dan tingkat kolom dengan Lake Formation. Saat pengguna terhubung ke klaster EMR dari notebook Studio, mereka dapat memilih peran IAM (disebut peran IAM waktu proses) yang ingin mereka hubungi. Jika akses data dikelola oleh Lake Formation, pengguna dapat memberlakukan izin tingkat tabel dan tingkat kolom menggunakan kebijakan yang dilampirkan pada peran runtime. Untuk detail lebih lanjut, lihat Terapkan kontrol akses data terperinci dengan AWS Lake Formation dan Amazon EMR dari Amazon SageMaker Studio.
Serap dan buat katalog beragam data
Model tata kelola data yang kuat mencakup data dari banyak sumber data dan metode organisasi untuk menemukan dan membuat katalog aset data yang bervariasi tersebut. Perayap AWS Glue menyediakan kemampuan untuk menemukan data dari sumber termasuk Amazon S3, Amazon Redshift, dan database NoSQL, dan mengisi Katalog Data AWS Glue.
Pada 2022, kami meluncurkan Dukungan crawler AWS Glue untuk Snowflake dan Dukungan crawler AWS Glue untuk tabel Delta Lake. Integrasi ini memungkinkan perayap AWS Glue membuat dan memperbarui tabel Katalog Data berdasarkan sumber data populer ini. Hal ini semakin mempermudah pembuatan tugas ekstrak, transformasi, dan muat (ETL) dengan AWS Glue berdasarkan tabel Katalog Data ini sebagai sumber dan target.
Pada tahun 2022, UI perayap AWS Glue didesain ulang untuk menawarkan pengalaman pengguna yang lebih baik. Salah satu penyempurnaan utama yang disampaikan sebagai bagian dari revisi ini adalah wawasan yang lebih luas tentang riwayat perayap AWS Glue. UI riwayat perayap menyediakan tampilan yang mudah dari perayap berjalan, jadwal, sumber data, dan tag. Untuk setiap perayapan, riwayat perayap menawarkan ringkasan perubahan dalam skema database atau perubahan partisi Amazon S3. Riwayat perayap juga memberikan info mendetail tentang jam DPU dan mengurangi waktu yang dihabiskan untuk menganalisis dan men-debug operasi dan biaya perayap. Untuk menjelajahi fungsionalitas baru yang ditambahkan ke UI perayap, lihat Siapkan dan pantau perayap AWS Glue menggunakan UI AWS Glue dan riwayat perayap yang disempurnakan.
Pada tahun 2022, kami juga memperluas dukungan untuk perayap berdasarkan pemberitahuan kejadian Amazon S3 untuk mendukung tabel katalog. Dengan fitur ini, perayapan inkremental dapat dipindahkan dari pipeline data ke perayap AWS Glue terjadwal, mengurangi perayapan menjadi kejadian S3 inkremental. Untuk informasi lebih lanjut, lihat Bangun perayapan tambahan dari data lake dengan tabel katalog Glue yang ada.
Lebih banyak cara untuk berbagi data di luar data lake
Selama re:Invent 2022, kami mengumumkan pratinjau Pertukaran Data AWS untuk Formasi Danau AWS, fitur baru yang memungkinkan pelanggan data menemukan dan berlangganan kumpulan data pihak ketiga yang dikelola langsung melalui Lake Formation. Sampai sekarang, Pertukaran Data AWS pelanggan dapat mengakses kumpulan data pihak ketiga dengan mengekspor file penyedia ke bucket S3 mereka sendiri, memanggil API penyedia melalui Gerbang API Amazon, atau menanyakan pembagian data Amazon Redshift produsen dari klaster Amazon Redshift mereka. Dengan integrasi Lake Formation yang baru, penyedia data menyusun dataset AWS Data Exchange menggunakan tag Lake Formation. Pelanggan data dapat melakukan kueri dan menjelajahi database dan tabel yang terkait dengan tag tersebut, sama seperti sumber daya Katalog Data AWS Glue lainnya. Organisasi dapat menerapkan izin Lake Formation berbasis sumber daya untuk berbagi kumpulan data berlisensi dalam akun yang sama atau di seluruh akun menggunakan Manajer Lisensi AWS. AWS Data Exchange for Lake Formation merampingkan operasi berbagi dan lisensi data dengan mempercepat orientasi data, mengurangi jumlah ETL yang diperlukan pengguna akhir untuk mengakses data pihak ketiga, dan memusatkan tata kelola dan kontrol akses untuk data pihak ketiga.
Di re:Invent 2022, kami juga mengumumkan Zona Data Amazon, layanan manajemen data baru yang membuat Anda lebih cepat dan lebih mudah membuat katalog, menemukan, berbagi, dan mengatur data yang disimpan di seluruh AWS, lokal, dan sumber pihak ketiga. Amazon DataZone adalah layanan katalog data bisnis yang melengkapi metadata teknis di Katalog Data AWS Glue. Amazon DataZone terintegrasi dengan manajemen izin Lake Formation sehingga Anda dapat secara efektif mengelola dan mengatur akses ke data Anda, dan mengaudit siapa yang mengakses data apa dan untuk tujuan apa. Dengan model penerbit-pelanggan Amazon DataZone, aset data dapat dibagikan dan diakses di seluruh Wilayah. Untuk detail tambahan tentang layanan dan kemampuannya, lihat FAQ Amazon DataZone dan re: Ciptakan peluncuran.
Kesimpulan
Data mengubah setiap bidang dan setiap bisnis. Namun, dengan pertumbuhan data yang lebih cepat daripada yang dapat dilacak sebagian besar perusahaan, mengumpulkan, mengamankan, dan mendapatkan nilai dari data tersebut merupakan hal yang menantang untuk dilakukan. Strategi data modern dapat membantu Anda menciptakan hasil bisnis yang lebih baik dengan data. AWS menyediakan rangkaian layanan terlengkap untuk perjalanan data ujung ke ujung untuk membantu Anda membuka nilai dari data Anda dan mengubahnya menjadi wawasan.
Di AWS, kami bekerja mundur dari kebutuhan pelanggan. Dari tim Formasi Danau, kami bekerja keras untuk menghadirkan fitur yang dijelaskan dalam postingan ini, dan kami mengundang Anda untuk memeriksanya. Dengan fokus berkelanjutan kami untuk menciptakan, kami berharap dapat memainkan peran kunci dalam memberdayakan organisasi untuk membangun model tata kelola data baru yang membantu Anda mendapatkan lebih banyak nilai bisnis secepat kilat.
Anda dapat memulai Formasi Danau dengan menjelajahi kami bengkel langsung modul dan Memulai tutorial. Kami menantikan kabar dari Anda, pelanggan kami, tentang data lake dan kasus penggunaan tata kelola data Anda. Hubungi tim akun AWS Anda dan bagikan komentar Anda.
Tentang Penulis
Jason Berkowitz adalah Manajer Produk Senior dengan AWS Lake Formation. Dia berasal dari latar belakang pembelajaran mesin dan arsitektur data lake. Dia membantu pelanggan menjadi berbasis data.
Aarthi Srinivasan adalah Senior Big Data Architect dengan AWS Lake Formation. Dia senang membuat solusi data lake untuk pelanggan dan partner AWS. Saat tidak menggunakan keyboard, dia menjelajahi tren sains dan teknologi terbaru dan menghabiskan waktu bersama keluarganya.
Leonardo Gomez adalah Arsitek Solusi Spesialis Analisis Senior di AWS. Berbasis di Toronto, Kanada, ia memiliki lebih dari satu dekade pengalaman dalam manajemen data, membantu pelanggan di seluruh dunia memenuhi kebutuhan bisnis dan teknis mereka.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/big-data/aws-lake-formation-2022-year-in-review/
- 100
- 116
- 2022
- 7
- a
- kemampuan
- Sanggup
- Tentang Kami
- mempercepat
- mempercepat
- mengakses
- Akses ke data
- diakses
- mengakses
- Akun
- Akun
- di seluruh
- menambahkan
- tambahan
- Tambahan
- alamat
- admin
- Keuntungan
- memungkinkan
- Amazon
- Amazon ESDM
- Amazon SageMaker
- jumlah
- analisis
- menganalisis
- dan
- mengumumkan
- Apache
- Apache Spark
- api
- Lebah
- Aplikasi
- aplikasi
- Mendaftar
- sesuai
- arsitektur
- DAERAH
- daerah
- sekitar
- Aktiva
- Menghubungkan
- terkait
- Audit
- AWS
- Lem AWS
- Formasi Danau AWS
- AWS re: Temukan
- latar belakang
- berdasarkan
- menjadi
- Lebih baik
- Luar
- Besar
- Big data
- membangun
- pembangun
- pembangun
- Bangunan
- dibangun di
- bisnis
- bisnis ke bisnis
- bernama
- panggilan
- Bisa Dapatkan
- Kanada
- kemampuan
- kasus
- kasus
- katalog
- CCPA
- tantangan
- menantang
- Perubahan
- memeriksa
- Tiongkok
- Pilih
- awan
- Kelompok
- Mengumpulkan
- koleksi
- komentar
- Perusahaan
- kompetitif
- lengkap
- kompleks
- luas
- Terhubung
- terus
- kontrol
- kontrol
- Biaya
- bisa
- liputan
- crawler
- membuat
- adat
- pelanggan
- pelanggan
- data
- akses data
- insinyur data
- Pertukaran data
- Danau Data
- manajemen data
- Platform Data
- privasi data
- kualitas data
- ilmuwan data
- berbagi data
- strategi data
- data warehouse
- gudang data
- Data-driven
- Basis Data
- database
- kumpulan data
- dasawarsa
- Pengambilan Keputusan
- lebih dalam
- menyampaikan
- disampaikan
- Delta
- penggelaran
- dijelaskan
- terperinci
- rincian
- pengembang
- Pengembangan
- berbeda
- langsung
- menemukan
- setiap
- mudah
- Efektif
- efektif
- memberdayakan
- memungkinkan
- memungkinkan
- mendorong
- ujung ke ujung
- insinyur
- Insinyur
- ditingkatkan
- Meningkatkan
- memastikan
- memastikan
- Lingkungan Hidup
- Eter (ETH)
- EU
- Bahkan
- Acara
- peristiwa
- Setiap
- Pasar Valas
- gembira
- ada
- memperluas
- pengalaman
- menyelidiki
- Menjelajahi
- ekspresi
- ekstrak
- keluarga
- lebih cepat
- Fitur
- Fitur
- umpan balik
- beberapa
- bidang
- File
- Menemukan
- akhir
- Pertama
- Fokus
- berikut
- pembentukan
- Depan
- Prinsip Dasar
- kerangka
- dari
- sepenuhnya
- fungsionalitas
- lebih lanjut
- GDPR
- menghasilkan
- mendapatkan
- mendapatkan
- bumi
- akan
- pemerintahan
- memberikan
- lebih besar
- Kelompok
- Pertumbuhan
- Penanganan
- senang
- Sulit
- Kesehatan
- pendengaran
- membantu
- membantu
- membantu
- sejarah
- Sarang lebah
- berharap
- JAM
- Seterpercayaapakah Olymp Trade? Kesimpulan
- Namun
- HTML
- HTTPS
- IAM
- identitas
- implementasi
- penting
- perbaikan
- meningkatkan
- meningkatkan
- in
- Di lain
- termasuk
- Termasuk
- Meningkatkan
- makin
- Info
- informasi
- wawasan
- wawasan
- terpadu
- integrasi
- integrasi
- tertarik
- diperkenalkan
- memperkenalkan
- mengundang
- IT
- Jobs
- perjalanan
- Menjaga
- kunci
- danau
- Terbaru
- diluncurkan
- pemimpin
- BELAJAR
- pengetahuan
- Tingkat
- Lisensi
- Izin
- Perizinan
- petir
- Kecepatan cahaya
- memuat
- melihat
- mesin
- Mesin belajar
- terbuat
- Utama
- MEMBUAT
- Membuat
- mengelola
- berhasil
- pengelolaan
- manajer
- banyak
- Metadata
- metode
- metode
- ML
- mode
- model
- model
- modern
- Modul
- Memantau
- lebih
- paling
- beberapa
- nama
- asli
- Perlu
- kebutuhan
- New
- Fitur baru
- laptop
- pemberitahuan
- November
- Baru
- obligasi
- menawarkan
- Penawaran
- Onboarding
- ONE
- open source
- Operasi
- Kesempatan
- organisasi
- organisasi
- Lainnya
- sendiri
- pemilik
- bagian
- rekan
- PBS
- izin
- Izin
- petabyte.dll
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- Bermain
- silahkan
- Kebijakan
- Populer
- portofolio
- mungkin
- Pos
- Mempersiapkan
- disajikan
- Preview
- terutama
- pribadi
- proses
- pengolahan
- Produk
- manajer produk
- Kemajuan
- memberikan
- disediakan
- penyedia
- menyediakan
- menyediakan
- diterbitkan
- tujuan
- kualitas
- RAM
- RE
- mengenali
- sarankan
- mengurangi
- mengurangi
- daerah
- peraturan
- regulator
- melepaskan
- Dihapus
- wajib
- Persyaratan
- sumber
- Sumber
- ISTIRAHAT
- ulasan
- Risiko
- kuat
- Peran
- peran
- Run
- Rusia
- pembuat bijak
- sama
- Skala
- dijadwalkan
- Ilmu
- Sains dan Teknologi
- ilmuwan
- ilmuwan
- mulus
- Kedua
- aman
- mengamankan
- senior
- layanan
- Layanan
- set
- Share
- berbagi
- saham
- berbagi
- Sederhana
- So
- larutan
- Solusi
- Memecahkan
- beberapa
- sumber
- sumber
- percikan
- spesialis
- tertentu
- kecepatan
- menghabiskan
- stakeholder
- Starburst
- mulai
- Mulai
- Tangga
- penyimpanan
- tersimpan
- Penyelarasan
- aliran
- studio
- menyerahkan
- berlangganan
- pelanggan
- seperti itu
- meringkaskan
- RINGKASAN
- mendukung
- Mendukung
- sistem
- Pembicaraan
- target
- tim
- tim
- Teknis
- Teknologi
- Grafik
- Sumber
- mereka
- hal
- pihak ketiga
- Melalui
- di seluruh
- waktu
- untuk
- toronto
- menyentuh
- jalur
- Pelatihan
- Mengubah
- mengubah
- Tren
- MENGHIDUPKAN
- ui
- pokok
- memahami
- terpadu
- unik
- membuka kunci
- Memperbarui
- menggunakan
- gunakan case
- Pengguna
- Pengguna Pengalaman
- Pengguna
- nilai
- versi
- View
- 'view'
- Gudang
- cara
- Apa
- apakah
- SIAPA
- dalam
- Kerja
- bekerja
- bengkel
- Lokakarya
- penulisan
- tahun
- Anda
- Youtube
- zephyrnet.dll