İşletmeler, karar verme, raporlama ve makine öğrenimi (ML) gibi süreçleri yönlendirmek için her gün daha fazla veri toplar. Verilerinizi temizlemeden ve dönüştürmeden önce, kullanıma uygun olup olmadığını belirlemeniz gerekir. Yanlış, eksik veya hatalı biçimlendirilmiş veriler, aşağı akış analitikleri ve makine öğrenimi süreçleri üzerinde büyük etkilere sahip olabilir. Veri kalitesi kontrollerinin gerçekleştirilmesi, sorunları daha hızlı çözebilmeniz için iş akışınızda daha önce tespit etmenize yardımcı olur. Ek olarak, bu kontrolleri olay tabanlı bir mimari kullanarak yapmak, manuel temas noktalarını azaltmanıza ve artan miktarda veriyle ölçeklendirmenize yardımcı olur.
AWS Tutkal DataBrew verilerinizdeki yinelenen değerler, eksik değerler ve aykırı değerler gibi veri kalitesi istatistiklerini bulmanızı kolaylaştıran görsel bir veri hazırlama aracıdır. Benzersiz iş gereksinimlerinize göre koşullu kontroller gerçekleştirmek için DataBrew'da veri kalitesi kuralları da oluşturabilirsiniz. Örneğin, bir üreticinin, özellikle bir Part ID
sütununda veya bir sağlık hizmeti sağlayıcısı bu değerleri bir SSN
sütun belirli bir uzunluktadır. DataBrew ile bu kuralları oluşturup doğruladıktan sonra, Amazon EventBridge, AWS Basamak İşlevleri, AWS Lambda, ve Amazon Basit Bildirim Servisi (Amazon SNS) otomatik bir iş akışı oluşturmak ve bir kural doğrulama kontrolünden geçemediğinde bir bildirim göndermek için.
Bu gönderide, uçtan uca iş akışı ve bu çözümün nasıl uygulanacağı konusunda size yol gösteriyoruz. Bu gönderi, adım adım bir öğretici, bir AWS Sunucusuz Uygulama Modeli (AWS SAM) şablonu ve uygulamayı kendi AWS ortamınızda dağıtmak için kullanabileceğiniz örnek kod.
Çözüme genel bakış
Bu gönderideki çözüm birleştirir sunucusuz AWS hizmetleri, veri kalitesi doğrulaması için tamamen otomatikleştirilmiş, uçtan uca olaya dayalı bir işlem hattı oluşturur. Aşağıdaki şema, çözüm mimarimizi göstermektedir.
Çözüm iş akışı aşağıdaki adımları içerir:
- Dosyanıza yeni veriler yüklediğinizde Amazon Basit Depolama Hizmeti (Amazon S3) kovası, olaylar EventBridge'e gönderilir.
- Bir EventBridge kuralı, bir Step Functions durum makinesinin çalışmasını tetikler.
- Durum makinesi, bir veri kalitesi kural kümesi ve kurallarıyla yapılandırılmış bir DataBrew profil işi başlatır. Benzer bir çözüm oluşturmayı düşünüyorsanız, DataBrew profili iş çıktı konumu ve kaynak veri S3 kovaları benzersiz olmalıdır. Bu, özyinelemeli iş çalıştırmalarını önler. Kaynaklarımızı bir AWS CloudFormation benzersiz S3 paketleri oluşturan şablon.
- Bir Lambda işlevi, Amazon S3'ten gelen veri kalitesi sonuçlarını okur ve durum makinesine bir Boole yanıtı döndürür. işlev döner
false
kural kümesindeki bir veya daha fazla kural başarısız olursa ve geri dönersetrue
tüm kurallar başarılı olursa. - Boole yanıtı ise
false
, durum makinesi Amazon SNS ile bir e-posta bildirimi gönderir ve durum makinesi birfailed
durum. Boole yanıtı isetrue
, durum makinesi birsucceed
durum. Bu adımdaki çözümü, başarı veya başarısızlık durumunda diğer görevleri çalıştırmak için de genişletebilirsiniz. Örneğin, tüm kurallar başarılı olursa DataBrew'da başka bir dönüştürme işini tetiklemek için bir EventBridge iletisi gönderebilirsiniz.
Bu gönderide, olaya dayalı veri kalitesi doğrulama çözümünün tam olarak işleyen bir demosunu dağıtmak için AWS CloudFormation'ı kullanacaksınız. Amazon S3'e geçerli bir virgülle ayrılmış değerler (CSV) dosyası ve ardından geçersiz bir CSV dosyası yükleyerek çözümü test edersiniz.
Adımlar aşağıdaki gibidir:
- Çözüm kaynaklarını dağıtmak için bir CloudFormation yığını başlatın.
- Çözümü test edin:
- Amazon S3'e geçerli bir CSV dosyası yükleyin ve veri kalitesi doğrulamasının ve Step Functions durum makinesinin başarılı olduğunu gözlemleyin.
- Amazon S3'e geçersiz bir CSV dosyası yükleyin ve veri kalitesi doğrulamasını ve Step Functions durum makinesinin başarısız olduğunu gözlemleyin ve Amazon SNS'den bir e-posta bildirimi alın.
Örnek kodun tamamı şurada bulunabilir: GitHub deposu.
Önkoşullar
Bu izlenecek yol için aşağıdaki ön koşullara sahip olmalısınız:
AWS CloudFormation kullanarak çözüm kaynaklarını dağıtın
Olaya dayalı veri kalitesi doğrulama çözümü için gereken kaynakları dağıtmak için bir CloudFormation yığını kullanırsınız. Yığın, DataBrew'da örnek bir veri kümesi ve kural kümesi içerir.
- AWS hesabınızda oturum açın ve ardından Yığını Başlat:
- Üzerinde Hızlı yığın oluşturma sayfası, için E, Amazon SNS e-posta bildirimleri için geçerli bir e-posta adresi girin.
- Kalan seçenekleri varsayılanlara ayarlanmış bırakın.
- Onay onay kutularını seçin.
- Klinik Yığın oluşturun.
CloudFormation yığınına ulaşmak yaklaşık 5 dakika sürer CREATE_COMPLETE
durumu.
- Sağladığınız e-posta adresinin gelen kutusunu kontrol edin ve SNS aboneliğini kabul edin.
İzlenecek yolun sonunda e-posta bildirim özelliğini göstermek için abonelik onayını gözden geçirmeniz ve kabul etmeniz gerekir.
Üzerinde Çıkışlar sekmesinde, şablonun oluşturduğu DataBrew ve Step Functions kaynaklarına göz atmak için URL'leri bulabilirsiniz. Ayrıca sonraki adımlarda kullanacağınız tamamlanmış AWS CLI komutlarını da not edin.
Seçerseniz AWSGlueDataBrewRuleset
değer bağlantısı, aşağıdaki ekran görüntüsünde olduğu gibi kural kümesi ayrıntıları sayfasını görmelisiniz. Bu izlenecek yolda, eksik değerleri, aykırı değerleri ve dize uzunluğunu kontrol eden üç kurallı bir veri kalitesi kural kümesi oluşturuyoruz.
Çözümü test edin
Aşağıdaki adımlarda, olaya dayalı veri kalitesi doğrulama çözümünü test etmek için CSV dosyasının doğru ve yanlış sürümlerini yüklemek için AWS CLI'yi kullanırsınız.
- Bir terminal veya komut satırı istemi açın ve örnek verileri indirmek için AWS CLI'yi kullanın. Anahtar adıyla CloudFormation yığın çıktısındaki komutu kullanın
CommandToDownloadTestData
: - Değiştirilmemiş CSV dosyasını S3 klasörünüze yüklemek için AWS CLI'yi tekrar kullanın. dizeyi değiştir kova adınızla veya CloudFormation şablon çıktısından size sağlanan komutu kopyalayıp yapıştırın:
- Step Functions konsolunda, CloudFormation şablonu tarafından oluşturulan durum makinesini bulun.
Daha önce belirtilen CloudFormation çıktılarında bir URL bulabilirsiniz.
- Üzerinde idamlar sekmesinde, durum makinesinin yeni bir çalışmasını görmelisiniz.
- Durum makinesi grafiğini görüntülemek ve ilerlemesini izlemek için çalıştırmanın URL'sini seçin.
Aşağıdaki resim durum makinemizin iş akışını göstermektedir.
Bir veri kalitesi kuralının başarısızlığını göstermek için, en az bir düzenleme yaparsınız. votes.csv
dosyası.
- Dosyayı tercih ettiğiniz metin düzenleyicide veya elektronik tablo aracında açın ve yalnızca bir hücreyi silin.
Aşağıdaki ekran görüntülerinde Linux üzerinde GNU nano editörünü kullanıyorum. Bir hücreyi silmek için bir elektronik tablo düzenleyicisi de kullanabilirsiniz. Bu, "Eksik Değerler İçin Tüm Sütunları Kontrol Et" kuralının başarısız olmasına neden olur.
Aşağıdaki ekran görüntüsü, değişiklikten önceki CSV dosyasını göstermektedir.
Aşağıdaki ekran görüntüsü, değiştirilen CSV dosyasını göstermektedir.
- Düzenleneni kaydet
votes.csv
dosya ve komut isteminize veya terminalinize dönün. - Dosyayı bir kez daha S3 klasörünüze yüklemek için AWS CLI'yi kullanın. Daha önce olduğu gibi aynı komutu kullanırsınız:
- Step Functions konsolunda, izlemek için en son durum makinesi çalışmasına gidin.
Veri kalitesi doğrulaması başarısız olur ve bir SNS e-posta bildirimini tetikler ve genel durum makinesinin çalışması başarısız olur.
Aşağıdaki görüntü, arızalı durum makinesinin iş akışını gösterir.
Aşağıdaki ekran görüntüsü, SNS e-postasının bir örneğini göstermektedir.
- DataBrew konsolundaki kural hatasını aşağıdakileri seçerek inceleyebilirsiniz.
AWSGlueDataBrewProfileResults
CloudFormation yığın çıktılarındaki değer.
Temizlemek
Gelecekte ücret alınmasını önlemek için kaynakları silin. AWS CloudFormation konsolunda, adlı yığını silin. AWSBigDataBlogDataBrewDQSample
.
Sonuç
Bu gönderide, otomatikleştirilmiş, olaya dayalı veri kalitesi doğrulama ardışık düzenlerinin nasıl oluşturulacağını öğrendiniz. DataBrew ile iş ve teknik gereksinimleriniz için veri kalitesi kuralları, eşikler ve kural kümeleri tanımlayabilirsiniz. Step Functions, EventBridge ve Amazon SNS, ihtiyaçlarınıza göre uyarlanmış özelleştirilebilir hata işleme ve uyarılarla karmaşık işlem hatları oluşturmanıza olanak tanır.
adresini ziyaret ederek bu çözüm ve kaynak kodu hakkında daha fazla bilgi edinebilirsiniz. GitHub deposu. DataBrew veri kalitesi kuralları hakkında daha fazla bilgi edinmek için şu adresi ziyaret edin: AWS Glue DataBrew artık müşterilerin iş gereksinimlerini tanımlamak ve doğrulamak için veri kalitesi kuralları oluşturmasına olanak tanıyor veya bakın AWS Glue DataBrew'da veri kalitesini doğrulama.
Yazarlar Hakkında
Laith Al-Saadoon Envision Engineering ekibinde Baş Prototipleme Mimarıdır. Gerçek dünyadaki müşteri sorunlarını çözmek için yapay zeka, makine öğrenimi, IoT ve uç bilgi işlem, akış analitiği, robotik ve uzamsal bilgi işlem kullanarak prototipler ve çözümler oluşturur. Laith boş zamanlarında fotoğrafçılık, drone uçuşları, yürüyüş ve paintball gibi açık hava etkinliklerinden hoşlanır.
Gordon Burgess AWS Glue DataBrew'da Kıdemli Ürün Yöneticisidir. Müşterilerin verilerinden içgörüler keşfetmesine yardımcı olma konusunda tutkulu ve analitik ürünleri için kullanıcı deneyimleri ve zengin işlevsellik oluşturmaya odaklanıyor. Gordon, iş dışında kitap okumayı, kahve içmeyi ve bilgisayar inşa etmeyi sever.
- '
- &
- 100
- 107
- 7
- Hakkımızda
- Hesap
- faaliyetler
- adres
- AI
- Türkiye
- Amazon
- analytics
- Uygulama
- mimari
- Otomatik
- AWS
- inşa etmek
- bina
- iş
- yükler
- Çekler
- Temizlik
- kod
- Kahve
- Sütun
- karmaşık
- bilgisayarlar
- bilgisayar
- konsolos
- Müşteriler
- veri
- veri kalitesi
- gün
- keşfetmek
- vızıldamak
- kenar
- kenar hesaplama
- editör
- E-posta
- uçları
- Mühendislik
- çevre
- olaylar
- örnek
- Deneyimler
- Başarısızlık
- Daha hızlı
- Özellikler(Hazırlık aşamasında)
- uygun
- Uçak Bileti
- bulundu
- Ücretsiz
- işlev
- fonksiyonlar
- gelecek
- Büyüyen
- kullanma
- sağlık
- yardımcı olur
- yürüyüş
- Ne kadar
- Nasıl Yapılır
- HTTPS
- belirlemek
- görüntü
- uygulamak
- anlayışlar
- araştırmak
- IOT
- sorunlar
- IT
- İş
- anahtar
- büyük
- son
- ÖĞRENİN
- öğrendim
- öğrenme
- çizgi
- LINK
- linux
- yer
- makine öğrenme
- Üretici firma
- ML
- Daha
- nano
- gerekli
- tebliğ
- Opsiyonlar
- sipariş
- Diğer
- Dış Aydınlatma
- fotoğrafçılık
- Anapara
- PLATFORM
- Ürünler
- Profil
- prototip
- sağlayan
- kalite
- Okuma
- azaltmak
- değiştirmek
- Yer Alan Kurallar
- Kaynaklar
- yanıt
- Sonuçlar
- İade
- yorum
- robotik
- kurallar
- koşmak
- ölçek
- Serverless
- Hizmetler
- set
- benzer
- Basit
- So
- Çözümler
- ÇÖZMEK
- uzaysal
- mekansal hesaplama
- özellikle
- Tablo
- Eyalet
- istatistik
- Durum
- hafızası
- akış
- abone
- başarı
- Teknik
- terminal
- test
- Kaynak
- İçinden
- zaman
- araç
- Dönüşüm
- dönüşüm
- öğretici
- değer
- Görüntüle
- İş
- iş akışı