Bisnis mengumpulkan lebih banyak data setiap hari untuk mendorong proses seperti pengambilan keputusan, pelaporan, dan pembelajaran mesin (ML). Sebelum membersihkan dan mengubah data Anda, Anda perlu menentukan apakah data tersebut layak untuk digunakan. Data yang salah, hilang, atau cacat dapat berdampak besar pada analitik hilir dan proses ML. Melakukan pemeriksaan kualitas data membantu mengidentifikasi masalah lebih awal dalam alur kerja Anda sehingga Anda dapat menyelesaikannya lebih cepat. Selain itu, melakukan pemeriksaan ini menggunakan arsitektur berbasis peristiwa membantu Anda mengurangi titik kontak manual dan menskalakan dengan jumlah data yang terus bertambah.
DataBrew Lem AWS adalah alat persiapan data visual yang memudahkan untuk menemukan statistik kualitas data seperti nilai duplikat, nilai yang hilang, dan outlier dalam data Anda. Anda juga dapat menyiapkan aturan kualitas data di DataBrew untuk melakukan pemeriksaan bersyarat berdasarkan kebutuhan bisnis unik Anda. Misalnya, produsen mungkin perlu memastikan bahwa tidak ada nilai duplikat secara khusus dalam a Part ID
kolom, atau penyedia layanan kesehatan mungkin memeriksa nilai-nilai itu di SSN
kolom dengan panjang tertentu. Setelah Anda membuat dan memvalidasi aturan ini dengan DataBrew, Anda dapat menggunakan Jembatan Acara Amazon, Fungsi Langkah AWS, AWS Lambda, dan Layanan Pemberitahuan Sederhana Amazon (Amazon SNS) untuk membuat alur kerja otomatis dan mengirim pemberitahuan saat aturan gagal dalam pemeriksaan validasi.
Dalam posting ini, kami memandu Anda melalui alur kerja ujung ke ujung dan cara menerapkan solusi ini. Posting ini mencakup tutorial langkah demi langkah, dan Model Aplikasi Tanpa Server AWS (AWS SAM), dan kode contoh yang dapat Anda gunakan untuk menerapkan aplikasi di lingkungan AWS Anda sendiri.
Ikhtisar solusi
Solusi dalam posting ini menggabungkan tanpa server Layanan AWS untuk membangun pipeline end-to-end event-driven yang sepenuhnya otomatis untuk validasi kualitas data. Diagram berikut menggambarkan arsitektur solusi kami.
Alur kerja solusi berisi langkah-langkah berikut:
- Saat Anda mengunggah data baru ke Layanan Penyimpanan Sederhana Amazon (Amazon S3), acara dikirim ke EventBridge.
- Aturan EventBridge memicu mesin status Step Functions untuk dijalankan.
- Mesin negara memulai pekerjaan profil DataBrew, dikonfigurasi dengan aturan dan aturan kualitas data. Jika Anda mempertimbangkan untuk membuat solusi serupa, lokasi keluaran tugas profil DataBrew dan bucket S3 data sumber harus unik. Ini mencegah pekerjaan rekursif berjalan. Kami menyebarkan sumber daya kami dengan Formasi AWS Cloud template, yang membuat bucket S3 unik.
- Fungsi Lambda membaca hasil kualitas data dari Amazon S3, dan mengembalikan respons Boolean ke mesin status. Fungsi kembali
false
jika satu atau lebih aturan dalam kumpulan aturan gagal, dan kembalitrue
jika semua aturan berhasil. - Jika respon Boolean adalah
false
, mesin status mengirimkan pemberitahuan email dengan Amazon SNS dan mesin status berakhir dengan afailed
status. Jika respon Boolean adalahtrue
, mesin negara berakhir dengansucceed
status. Anda juga dapat memperluas solusi dalam langkah ini untuk menjalankan tugas lain pada keberhasilan atau kegagalan. Misalnya, jika semua aturan berhasil, Anda dapat mengirim pesan EventBridge untuk memicu tugas transformasi lain di DataBrew.
Dalam posting ini, Anda menggunakan AWS CloudFormation untuk menerapkan demo yang berfungsi penuh dari solusi validasi kualitas data berbasis peristiwa. Anda menguji solusinya dengan mengunggah file comma-separated values (CSV) yang valid ke Amazon S3, diikuti dengan file CSV yang tidak valid.
Langkah-langkahnya adalah sebagai berikut:
- Luncurkan tumpukan CloudFormation untuk menerapkan sumber daya solusi.
- Uji solusinya:
- Unggah file CSV yang valid ke Amazon S3 dan amati validasi kualitas data dan mesin status Step Functions berhasil.
- Unggah file CSV yang tidak valid ke Amazon S3 dan amati validasi kualitas data dan mesin status Step Functions gagal, dan terima pemberitahuan email dari Amazon SNS.
Semua kode sampel dapat ditemukan di Repositori GitHub.
Prasyarat
Untuk penelusuran ini, Anda harus memiliki prasyarat berikut:
Terapkan sumber daya solusi menggunakan AWS CloudFormation
Anda menggunakan tumpukan CloudFormation untuk menerapkan sumber daya yang diperlukan untuk solusi validasi kualitas data berbasis peristiwa. Tumpukan menyertakan contoh kumpulan data dan kumpulan aturan di DataBrew.
- Masuk ke akun AWS Anda lalu pilih Luncurkan Stack:
- pada Buat tumpukan dengan cepat halaman, untuk Alamat email, masukkan alamat email yang valid untuk pemberitahuan email Amazon SNS.
- Biarkan opsi yang tersisa diatur ke default.
- Pilih kotak centang pengakuan.
- Pilih Buat tumpukan.
Tumpukan CloudFormation membutuhkan waktu sekitar 5 menit untuk mencapai CREATE_COMPLETE
status.
- Periksa kotak masuk alamat email yang Anda berikan dan terima langganan SNS.
Anda perlu meninjau dan menerima konfirmasi berlangganan untuk mendemonstrasikan fitur pemberitahuan email di akhir panduan.
pada Output tab tumpukan, Anda dapat menemukan URL untuk menelusuri sumber daya DataBrew dan Step Functions yang dibuat template. Perhatikan juga perintah AWS CLI lengkap yang Anda gunakan di langkah selanjutnya.
Jika Anda memilih AWSGlueDataBrewRuleset
nilai tautan, Anda akan melihat halaman detail aturan, seperti pada tangkapan layar berikut. Dalam panduan ini, kami membuat kumpulan aturan kualitas data dengan tiga aturan yang memeriksa nilai yang hilang, outlier, dan panjang string.
Uji solusinya
Dalam langkah-langkah berikut, Anda menggunakan AWS CLI untuk mengunggah versi file CSV yang benar dan salah untuk menguji solusi validasi kualitas data berdasarkan peristiwa.
- Buka terminal atau prompt baris perintah dan gunakan AWS CLI untuk mengunduh data sampel. Gunakan perintah dari keluaran tumpukan CloudFormation dengan nama kunci
CommandToDownloadTestData
: - Gunakan AWS CLI lagi untuk mengunggah file CSV yang tidak diubah ke bucket S3 Anda. Ganti talinya dengan nama bucket Anda, atau salin dan tempel perintah yang diberikan kepada Anda dari output template CloudFormation:
- Di konsol Step Functions, temukan mesin status yang dibuat oleh template CloudFormation.
Anda dapat menemukan URL di output CloudFormation yang disebutkan sebelumnya.
- pada Eksekusi tab, Anda akan melihat proses baru dari mesin negara.
- Pilih URL proses untuk melihat grafik mesin status dan memantau kemajuannya.
Gambar berikut menunjukkan alur kerja mesin negara kita.
Untuk mendemonstrasikan kegagalan aturan kualitas data, Anda membuat setidaknya satu pengeditan pada votes.csv
file.
- Buka file di editor teks atau alat spreadsheet pilihan Anda, dan hapus hanya satu sel.
Pada screenshot berikut, saya menggunakan editor nano GNU di Linux. Anda juga dapat menggunakan editor spreadsheet untuk menghapus sel. Ini menyebabkan aturan "Periksa Semua Kolom Untuk Nilai yang Hilang" gagal.
Tangkapan layar berikut menunjukkan file CSV sebelum dimodifikasi.
Tangkapan layar berikut menunjukkan file CSV yang diubah.
- Simpan yang sudah diedit
votes.csv
file dan kembali ke command prompt atau terminal Anda. - Gunakan AWS CLI untuk mengunggah file ke bucket S3 Anda sekali lagi. Anda menggunakan perintah yang sama seperti sebelumnya:
- Pada konsol Step Functions, navigasikan ke state machine run terbaru untuk memantaunya.
Validasi kualitas data gagal, memicu pemberitahuan email SNS dan kegagalan menjalankan mesin status keseluruhan.
Gambar berikut menunjukkan alur kerja mesin status gagal.
Tangkapan layar berikut menunjukkan contoh email SNS.
- Anda dapat menyelidiki kegagalan aturan pada konsol DataBrew dengan memilih
AWSGlueDataBrewProfileResults
nilai dalam output tumpukan CloudFormation.
Membersihkan
Untuk menghindari timbulnya biaya di masa mendatang, hapus sumber daya. Di konsol AWS CloudFormation, hapus tumpukan bernama AWSBigDataBlogDataBrewDQSample
.
Kesimpulan
Dalam postingan ini, Anda mempelajari cara membuat pipeline validasi kualitas data otomatis yang digerakkan oleh peristiwa. Dengan DataBrew, Anda dapat menentukan aturan kualitas data, ambang batas, dan kumpulan aturan untuk bisnis dan persyaratan teknis Anda. Step Functions, EventBridge, dan Amazon SNS memungkinkan Anda membangun pipeline kompleks dengan penanganan kesalahan yang dapat disesuaikan dan peringatan yang disesuaikan dengan kebutuhan Anda.
Anda dapat mempelajari lebih lanjut tentang solusi ini dan kode sumber dengan mengunjungi Repositori GitHub. Untuk mempelajari lebih lanjut tentang aturan kualitas data DataBrew, kunjungi AWS Glue DataBrew sekarang memungkinkan pelanggan membuat aturan kualitas data untuk menentukan dan memvalidasi persyaratan bisnis mereka atau merujuk ke Memvalidasi kualitas data di AWS Glue DataBrew.
Tentang Penulis
Laith Al-Saadun adalah Arsitek Prototyping Utama di tim Envision Engineering. Dia membangun prototipe dan solusi menggunakan AI, pembelajaran mesin, IoT & komputasi edge, analitik streaming, robotika, dan komputasi spasial untuk memecahkan masalah pelanggan di dunia nyata. Di waktu luangnya, Laith menikmati aktivitas luar ruangan seperti fotografi, penerbangan drone, hiking, dan paintball.
Gordon Burgess adalah Manajer Produk Senior dengan AWS Glue DataBrew. Dia bersemangat membantu pelanggan menemukan wawasan dari data mereka, dan berfokus pada membangun pengalaman pengguna dan fungsionalitas yang kaya untuk produk analitik. Di luar pekerjaan, Gordon senang membaca, membuat kopi, dan membuat komputer.
- '
- &
- 100
- 107
- 7
- Tentang Kami
- Akun
- kegiatan
- alamat
- AI
- Semua
- Amazon
- analisis
- Aplikasi
- arsitektur
- Otomatis
- AWS
- membangun
- Bangunan
- bisnis
- beban
- Cek
- Pembersihan
- kode
- Tanaman
- Kolom
- kompleks
- komputer
- komputasi
- konsul
- pelanggan
- data
- kualitas data
- hari
- menemukan
- dengung
- Tepi
- komputasi tepi
- editor
- berakhir
- Teknik
- Lingkungan Hidup
- peristiwa
- contoh
- Pengalaman
- Kegagalan
- lebih cepat
- Fitur
- cocok
- Penerbangan
- ditemukan
- Gratis
- fungsi
- fungsi
- masa depan
- Pertumbuhan
- Penanganan
- kesehatan
- membantu
- mendaki
- Seterpercayaapakah Olymp Trade? Kesimpulan
- How To
- HTTPS
- mengenali
- gambar
- melaksanakan
- wawasan
- menyelidiki
- idiot
- masalah
- IT
- Pekerjaan
- kunci
- besar
- Terbaru
- BELAJAR
- belajar
- pengetahuan
- baris
- LINK
- linux
- tempat
- Mesin belajar
- Pabrikan
- ML
- lebih
- nano
- dibutuhkan
- pemberitahuan
- Opsi
- urutan
- Lainnya
- luar ruangan
- fotografi
- Utama
- Produk
- Produk
- Profil
- prototyping
- pemberi
- kualitas
- Bacaan
- menurunkan
- menggantikan
- Persyaratan
- Sumber
- tanggapan
- Hasil
- Pengembalian
- ulasan
- robotika
- aturan
- Run
- Skala
- Tanpa Server
- Layanan
- set
- mirip
- Sederhana
- So
- Solusi
- MEMECAHKAN
- spasial
- komputasi spasial
- Secara khusus
- Spreadsheet
- Negara
- statistika
- Status
- penyimpanan
- Streaming
- berlangganan
- sukses
- Teknis
- terminal
- uji
- Sumber
- Melalui
- waktu
- alat
- Transformasi
- mengubah
- tutorial
- nilai
- View
- Kerja
- alur kerja