Bugün yüz binlerce müşteri, analitik ve makine öğrenimi için veri göllerini kullanıyor. Ancak, veri mühendislerinin bu verileri kullanmadan önce temizlemesi ve hazırlaması gerekir. Müşterinin güvenli iş kararları verebilmesi için altta yatan verilerin doğru ve güncel olması gerekir. Aksi takdirde, veri tüketicileri verilere olan güvenini kaybeder ve yetersiz veya yanlış kararlar verir. Verilerin doğru ve güncel olup olmadığını değerlendirmek veri mühendislerinin ortak görevidir. Günümüzde çeşitli veri kalitesi araçları bulunmaktadır. Ancak, yaygın veri kalitesi araçları genellikle veri kalitesini izlemek için manuel işlemler gerektirir.
AWS Glue Data Quality, AWS Glue Data Quality'nin bir önizleme özelliğidir. AWS Tutkal veri kalitesini ölçen ve izleyen Amazon Basit Depolama Hizmeti (Amazon S3) veri gölleri ve AWS Glue'da ayıklama, dönüştürme ve yükleme (ETL) işleri. Bu, açık bir önizleme özelliğidir, dolayısıyla hesabınızda zaten etkindir. kullanılabilir Bölgeler. AWS Glue Studio konsolundaki veri kalitesi kontrollerini kod yazmadan kolayca tanımlayabilir ve ölçebilirsiniz. Veri kalitesini yönetme deneyiminizi basitleştirir.
Bu gönderi, AWS Glue Data Quality'nin nasıl çalıştığını açıklayan dört gönderi serisinin 2. Bölümüdür. Bu dizideki önceki gönderiye göz atın:
Bu gönderide, bir veri ardışık düzeninin veri kalitesini ölçen ve izleyen bir AWS Glue işinin nasıl oluşturulacağını gösteriyoruz. Ayrıca, veri kalitesi sonuçlarına göre nasıl önlem alınacağını da gösteriyoruz.
Çözüme genel bakış
Bir veri mühendisinin, verileri bir ham bölgeden bir veri gölündeki seçilmiş bir bölgeye almak için bir veri boru hattı oluşturması gereken bir örnek kullanım durumunu ele alalım. Bir veri mühendisi olarak, verileri ayıklamak, dönüştürmek ve yüklemekle birlikte temel sorumluluklarınızdan biri de verilerin kalitesini doğrulamaktır. Veri kalitesi sorunlarını önceden belirlemek, kötü verilerin seçilen bölgeye yerleştirilmesini önlemenize ve zahmetli veri bozulması olaylarından kaçınmanıza yardımcı olur.
Bu gönderide, kolayca nasıl kurulacağını öğreneceksiniz yerleşik ve görenek kötü verilerin aşağı akış yüksek kaliteli verileri bozmasını önlemek için AWS Glue işinizde veri doğrulama kontrolleri.
Bu gönderi için kullanılan veri kümesi sentetik olarak oluşturulmuştur; Aşağıdaki ekran görüntüsü, verilerin bir örneğini gösterir.
AWS CloudFormation ile kaynakları ayarlayın
Bu gönderi bir içerir AWS CloudFormation hızlı kurulum için şablon. İnceleyebilir ve ihtiyaçlarınıza göre özelleştirebilirsiniz.
CloudFormation şablonu aşağıdaki kaynakları oluşturur:
- Bir Amazon Basit Depolama Hizmeti (Amazon S3) grubu (
gluedataqualitystudio-*
). - S3 grubundaki aşağıdaki önekler ve nesneler:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS Kimlik ve Erişim Yönetimi (IAM) kullanıcıları, roller ve politikalar. IAM rolü (
GlueDataQualityStudio-*
) S3 grubundan okuma ve yazma iznine sahiptir. - AWS Lambda bu yığını oluşturmak ve silmek için bu işlevlerin gerektirdiği işlevler ve IAM politikaları.
Kaynaklarınızı oluşturmak için aşağıdaki adımları tamamlayın:
- Adresinde oturum açın AWS CloudFormation konsolu içinde
us-east-1
Bölge. - Klinik Yığını Başlat:
- seç AWS CloudFormation'ın IAM kaynakları oluşturabileceğini kabul ediyorum.
- Klinik Yığın oluştur ve yığın oluşturma adımının tamamlanmasını bekleyin.
Çözümü uygula
Çözümünüzü yapılandırmaya başlamak için aşağıdaki adımları tamamlayın:
- Üzerinde AWS Glue Studio konsolu, seçmek Mesleki Öğretiler Gezinti bölmesinde.
- seç Boş bir tuval ile görsel Ve seç oluşturmak.
- Seçin iş Ayrıntıları işi yapılandırmak için sekmesini tıklayın.
- İçin Name, girmek
GlueDataQualityStudio
. - İçin IAM Rolü, ile başlayan rolü seçin
GlueDataQualityStudio-*
. - İçin Tutkal versiyonu, seçmek Tutkal 3.0.
- İçin İş yer işareti, seçmek devre dışı bırakmak. Bu, aynı girdi veri kümesiyle bu işi birden çok kez çalıştırmanıza olanak tanır.
- İçin Yeniden deneme sayısı, girmek
0
. - içinde Gelişmiş özellikler bölümünde, CloudFormation şablonu tarafından oluşturulan S3 klasörünü sağlayın (ile başlayan
gluedataqualitystudio-*
). - Klinik İndirim.
- İş kaydedildikten sonra, Görsel sekmesinde ve üzerinde Kaynak menü seç Amazon S3.
- Üzerinde Veri kaynağı özellikleri - S3 sekme için S3 kaynak türüseçin S3 konumu.
- Klinik S3'e göz atın ve ön eke gidin
/datalake/raw/customer/
ile başlayan S3 kovasındagluedataqualitystudio-*
. - Klinik çıkarım şeması.
- Üzerinde Action menü seç Veri Kalitesini Değerlendirin.
- Seçin Veri Kalitesini Değerlendirin düğümü.
Üzerinde Dönüştürmek sekmesinde, artık veri kalitesi kuralları oluşturmaya başlayabilirsiniz. Oluşturduğunuz ilk kural,Customer_ID
kullanarak benzersizdir ve boş değildir.isPrimaryKey
kural. - Üzerinde Kural türleri sekmesinin sekmesi DQDL kural oluşturucu, aramak
isprimarykey
ve artı işaretini seçin. - Üzerinde Şema sekmesinin sekmesi DQDL kural oluşturucu, yanındaki artı işaretini seçin
Customer_ID
. - Kural düzenleyicide, sil
id
.
Eklediğimiz bir sonraki kural,First_Name
sütun değeri tüm satırlar için mevcuttur. - Veri kalitesi kurallarını doğrudan kural düzenleyiciye de girebilirsiniz. Virgül (,) ekleyin ve girin
IsComplete "First_Name",
ilk kuraldan sonra
Ardından, herhangi bir satırın bulunmadığını doğrulamak için özel bir kural eklersiniz.Telephone
orEmail
. - Kural düzenleyicide aşağıdaki özel kuralı girin:
Veri Kalitesini Değerlendir özelliği, iş kalitesi sonuçlarına dayalı olarak bir işin sonucunu yönetmek için eylemler sağlar. - Bu gönderi için seçin Veri kalitesi başarısız olduğunda iş başarısız olur Ve seç Hedef yüklemeden başarısız iş veri hareketler. İçinde Veri kalitesi çıktı ayarı bölümü, seçim S3'e göz atın ve ön eke gidin
dqresults
ile başlayan S3 kovasındagluedataqualitystudio-*
. - Üzerinde Hedef menü seç Amazon S3.
- Seçin Veri hedefi – S3 grubu düğümü.
- Üzerinde Veri hedefi özellikleri - S3 sekme için oluşturulan, seçmek Parke, Ve için Sıkıştırma tipi, seçmek Çabuk.
- İçin S3 Hedef Konumu, seçmek S3'e göz atın ve öneke gidin
/datalake/curated/customer/
ile başlayan S3 kovasındagluedataqualitystudio-*
. - Klinik İndirim, Daha sonra seçmek koşmak.
İş çalıştırma ayrıntılarını Çalıştırmalar sekmesinde görüntüleyebilirsiniz. Örneğimizde iş, "AssertionError: İş başarısız oldu çünkü düğüm için başarısız DQ kuralları nedeniyle başarısız oldu: ”
Veri kalitesi sonucunu Veri kalitesi sekmesinde inceleyebilirsiniz. Örneğimizde, özel veri kalitesi doğrulaması başarısız oldu çünkü veri kümesindeki satırlardan birindeTelephone
orEmail
değeri.Veri Kalitesini Değerlendir sonuçları, düğümün veri kalitesi sonuç konumu parametresine bağlı olarak S3 klasörüne JSON biçiminde de yazılır. - Şu yöne rotayı ayarla
dqresults
S3 grubu başlangıcının altındaki önekgluedataqualitystudio-*
. Veri kalitesi sonucunun tarihe göre bölümlendiğini göreceksiniz.
JSON dosyasının çıktısı aşağıdadır. Özel veri kalitesi görselleştirme panoları oluşturmak için bu dosya çıktısını kullanabilirsiniz.
Ayrıca izleyebilirsiniz Veri Kalitesini Değerlendirin düğüm aracılığıyla Amazon Bulut İzleme veri kalitesi sonuçları hakkında bildirimler göndermek için metrikler ve alarmlar ayarlayın. CloudWatch alarmlarının nasıl kurulacağı hakkında daha fazla bilgi edinmek için bkz. Amazon CloudWatch alarmlarını kullanma.
Temizlemek
İleride ücret ödemekten kaçınmak ve kullanılmayan rolleri ve ilkeleri temizlemek için oluşturduğunuz kaynakları silin:
- silmek
GlueDataQualityStudio
bu gönderinin bir parçası olarak oluşturduğunuz iş. - AWS CloudFormation konsolunda,
GlueDataQualityStudio
yığını.
Sonuç
AWS Glue Data Quality, ETL işlem hattınızın veri kalitesini ölçmek ve izlemek için kolay bir yol sunar. Bu gönderide, yüksek veri standartlarını korumanıza ve güvenli iş kararları almanıza yardımcı olan veri kalitesi sonuçlarına göre gerekli önlemleri nasıl alacağınızı öğrendiniz.
AWS Glue Data Quality hakkında daha fazla bilgi edinmek için belgelere bakın:
Yazarlar Hakkında
Deenbandhu Prasad AWS'de büyük veri hizmetlerinde uzmanlaşmış Kıdemli Analitik Uzmanıdır. Müşterilerin AWS Cloud üzerinde modern veri mimarisi oluşturmasına yardımcı olma konusunda tutkulu. Her büyüklükteki müşterinin veri yönetimi, veri ambarı ve veri gölü çözümlerini uygulamasına yardımcı olmuştur.
Yannis Mentekidis AWS Glue ekibinde Kıdemli Yazılım Geliştirme Mühendisidir.
- SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
- Plato blok zinciri. Web3 Metaverse Zekası. Bilgi Güçlendirildi. Buradan Erişin.
- Kaynak: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- Hakkımızda
- erişim
- Hesap
- doğru
- onaylamak
- Action
- eylemler
- Sonra
- Türkiye
- veriyor
- zaten
- Amazon
- analytics
- ve
- mimari
- AWS
- AWS CloudFormation
- AWS Tutkal
- Kötü
- kötü veri
- merkezli
- Çünkü
- önce
- Büyük
- büyük Veri
- inşa etmek
- bina
- iş
- dava
- yükler
- Kontrol
- Çekler
- Klinik
- bulut
- Sütun
- ortak
- tamamlamak
- emin
- Düşünmek
- konsolos
- Tüketiciler
- bozulma
- yaratmak
- çevrimiçi kurslar düzenliyorlar.
- oluşturma
- küratörlüğünü
- görenek
- müşteri
- Müşteriler
- özelleştirmek
- veri
- Veri Gölü
- veri yönetimi
- Tarih
- kararlar
- ayrıntılar
- gelişme
- direkt olarak
- belgeleme
- kolayca
- editör
- E-posta
- mühendis
- Mühendisler
- Keşfet
- hata
- Eter (ETH)
- değerlendirmek
- örnek
- var
- deneyim
- Açıklamak
- çıkarmak
- başarısız
- başarısız
- Özellikler(Hazırlık aşamasında)
- fileto
- Ad
- takip etme
- biçim
- itibaren
- fonksiyonlar
- gelecek
- oluşturulan
- üretir
- alma
- yardım
- yardım
- yardımcı olur
- Yüksek
- Yüksek kaliteli
- Ne kadar
- Nasıl Yapılır
- Ancak
- HTML
- HTTPS
- Yüzlerce
- belirlenmesi
- Kimlik
- uygulamak
- in
- içerir
- giriş
- sorunlar
- IT
- İş
- Mesleki Öğretiler
- json
- anahtar
- göl
- ÖĞRENİN
- öğrendim
- öğrenme
- yük
- yükleme
- yer
- kaybetmek
- makine
- makine öğrenme
- korumak
- yapmak
- yönetmek
- yönetim
- yönetme
- Manuel
- ölçmek
- önlemler
- Menü
- mesaj
- Metrikleri
- olabilir
- Modern
- izlemek
- monitörler
- Daha
- çoklu
- Gezin
- Navigasyon
- gerekli
- ihtiyaçlar
- sonraki
- düğüm
- bildirimleri
- nesneler
- Teklifler
- ONE
- açık
- aksi takdirde
- bölmesi
- parametre
- Bölüm
- tutkulu
- izin
- boru hattı
- yerleştirme
- Platon
- Plato Veri Zekası
- PlatoVeri
- artı
- politikaları
- Çivi
- Hazırlamak
- mevcut
- önlemek
- Önizleme
- önceki
- birincil
- Süreçler
- özellikleri
- sağlamak
- sağlar
- kalite
- Hızlı
- Çiğ
- Okumak
- son
- bölge
- gerektirir
- gereklidir
- Kaynaklar
- sonuç
- Sonuçlar
- yorum
- Rol
- rolleri
- SIRA
- Kural
- kurallar
- koşmak
- aynı
- Ara
- Bölüm
- Dizi
- hizmet
- Hizmetler
- set
- ayar
- kurulum
- şov
- Gösteriler
- işaret
- Basit
- boyutları
- So
- Software
- yazılım geliştirme
- çözüm
- Çözümler
- Kaynak
- uzman
- uzmanlaşmış
- yığın
- standartlar
- başlama
- başladı
- XNUMX dakika içinde!
- adım
- Basamaklar
- hafızası
- stüdyo
- Takım elbise
- sentetik
- Bizi daha iyi tanımak için
- Hedef
- Görev
- takım
- şablon
- The
- Binlerce
- İçinden
- zamanlar
- için
- bugün
- araçlar
- Dönüştürmek
- dönüşüm
- Güven
- altında
- altında yatan
- benzersiz
- kullanılmayan
- kullanım
- kullanım durumu
- kullanıcılar
- genellikle
- DOĞRULA
- onaylama
- değer
- çeşitli
- Görüntüle
- görüntüleme
- beklemek
- olup olmadığını
- hangi
- irade
- olmadan
- çalışır
- yazmak
- yazı yazıyor
- yazılı
- zefirnet