निर्णय लेने, रिपोर्टिंग और मशीन लर्निंग (एमएल) जैसी प्रक्रियाओं को चलाने के लिए व्यवसाय हर दिन अधिक से अधिक डेटा एकत्र करते हैं। अपने डेटा को साफ करने और बदलने से पहले, आपको यह निर्धारित करना होगा कि यह उपयोग के लिए उपयुक्त है या नहीं। गलत, गुम या विकृत डेटा का डाउनस्ट्रीम एनालिटिक्स और एमएल प्रक्रियाओं पर बड़ा प्रभाव पड़ सकता है। डेटा गुणवत्ता जांच करने से आपके वर्कफ़्लो में पहले से ही समस्याओं की पहचान करने में मदद मिलती है ताकि आप उन्हें तेज़ी से हल कर सकें। इसके अतिरिक्त, ईवेंट-आधारित आर्किटेक्चर का उपयोग करके इन जाँचों को करने से आपको मैन्युअल टचपॉइंट को कम करने और डेटा की बढ़ती मात्रा के साथ स्केल करने में मदद मिलती है।
AWS ग्लू डेटाब्रयू एक दृश्य डेटा तैयारी उपकरण है जो आपके डेटा में डुप्लिकेट मान, गुम मान और आउटलेयर जैसे डेटा गुणवत्ता आंकड़े ढूंढना आसान बनाता है। आप अपनी विशिष्ट व्यावसायिक आवश्यकताओं के आधार पर सशर्त जाँच करने के लिए DataBrew में डेटा गुणवत्ता नियम भी सेट कर सकते हैं। उदाहरण के लिए, एक निर्माता को यह सुनिश्चित करने की आवश्यकता हो सकती है कि विशेष रूप से a . में कोई डुप्लिकेट मान नहीं हैं Part ID
कॉलम, या एक स्वास्थ्य सेवा प्रदाता जाँच कर सकता है कि मान a SSN
स्तंभ एक निश्चित लंबाई हैं। डेटाब्रू के साथ इन नियमों को बनाने और मान्य करने के बाद, आप इसका उपयोग कर सकते हैं अमेज़न EventBridge, AWS स्टेप फ़ंक्शंस, AWS लाम्बा, तथा अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) एक स्वचालित वर्कफ़्लो बनाने के लिए और जब कोई नियम सत्यापन जांच में विफल हो जाता है तो एक अधिसूचना भेजता है।
इस पोस्ट में, हम आपको एंड-टू-एंड वर्कफ़्लो और इस समाधान को लागू करने के तरीके के बारे में बताते हैं। इस पोस्ट में चरण-दर-चरण ट्यूटोरियल शामिल है, एक AWS सर्वर रहित अनुप्रयोग मॉडल (एडब्ल्यूएस एसएएम) टेम्पलेट, और उदाहरण कोड जिसे आप अपने स्वयं के एडब्ल्यूएस वातावरण में एप्लिकेशन को तैनात करने के लिए उपयोग कर सकते हैं।
समाधान अवलोकन
इस पोस्ट में समाधान जोड़ती है serverless डेटा गुणवत्ता सत्यापन के लिए पूरी तरह से स्वचालित, एंड-टू-एंड इवेंट-संचालित पाइपलाइन बनाने के लिए एडब्ल्यूएस सेवाएं। निम्नलिखित आरेख हमारे समाधान वास्तुकला को दर्शाता है।
समाधान वर्कफ़्लो में निम्न चरण होते हैं:
- जब आप अपना नया डेटा अपलोड करते हैं अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बकेट, ईवेंट EventBridge को भेजे जाते हैं।
- एक EventBridge नियम चलाने के लिए एक Step Functions State मशीन को ट्रिगर करता है।
- राज्य मशीन डेटा गुणवत्ता नियम और नियमों के साथ कॉन्फ़िगर किया गया डेटाब्रू प्रोफ़ाइल कार्य प्रारंभ करता है। यदि आप एक समान समाधान बनाने पर विचार कर रहे हैं, तो DataBrew प्रोफ़ाइल जॉब आउटपुट स्थान और स्रोत डेटा S3 बकेट अद्वितीय होना चाहिए। यह रिकर्सिव जॉब रन को रोकता है। हम अपने संसाधनों को एक के साथ तैनात करते हैं एडब्ल्यूएस CloudFormation टेम्प्लेट, जो अद्वितीय S3 बकेट बनाता है।
- लैम्ब्डा फ़ंक्शन Amazon S3 से डेटा गुणवत्ता परिणाम पढ़ता है, और राज्य मशीन में एक बूलियन प्रतिक्रिया देता है। समारोह लौटता है
false
यदि नियम में एक या अधिक नियम विफल हो जाते हैं, और वापस आ जाते हैंtrue
अगर सभी नियम सफल होते हैं। - यदि बूलियन प्रतिक्रिया है
false
, राज्य मशीन अमेज़ॅन एसएनएस के साथ एक ईमेल अधिसूचना भेजती है और राज्य मशीन एक में समाप्त होती हैfailed
स्थिति। यदि बूलियन प्रतिक्रिया हैtrue
, राज्य मशीन a . में समाप्त होती हैsucceed
स्थिति। सफलता या विफलता पर अन्य कार्यों को चलाने के लिए आप इस चरण में समाधान का विस्तार भी कर सकते हैं। उदाहरण के लिए, यदि सभी नियम सफल होते हैं, तो आप DataBrew में किसी अन्य परिवर्तन कार्य को ट्रिगर करने के लिए EventBridge संदेश भेज सकते हैं।
इस पोस्ट में, आप ईवेंट-संचालित डेटा गुणवत्ता सत्यापन समाधान के पूरी तरह से कार्यशील डेमो को परिनियोजित करने के लिए AWS CloudFormation का उपयोग करते हैं। आप Amazon S3 पर एक मान्य अल्पविराम से अलग मान (CSV) फ़ाइल अपलोड करके समाधान का परीक्षण करते हैं, उसके बाद एक अमान्य CSV फ़ाइल।
निम्नानुसार कदम हैं:
- समाधान संसाधनों को परिनियोजित करने के लिए CloudFormation स्टैक लॉन्च करें।
- समाधान का परीक्षण करें:
- Amazon S3 पर एक मान्य CSV फ़ाइल अपलोड करें और डेटा गुणवत्ता सत्यापन और Step Functions State Machine के सफल होने का निरीक्षण करें।
- Amazon S3 पर एक अमान्य CSV फ़ाइल अपलोड करें और डेटा गुणवत्ता सत्यापन और स्टेप फ़ंक्शंस स्टेट मशीन के विफल होने का निरीक्षण करें, और Amazon SNS से एक ईमेल सूचना प्राप्त करें।
सभी नमूना कोड में पाया जा सकता है गिटहब भंडार.
.. पूर्वापेक्षाएँ
इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:
AWS CloudFormation का उपयोग करके समाधान संसाधनों को तैनात करें
आप इवेंट-संचालित डेटा गुणवत्ता सत्यापन समाधान के लिए आवश्यक संसाधनों को परिनियोजित करने के लिए CloudFormation स्टैक का उपयोग करते हैं। स्टैक में डेटाब्रू में एक उदाहरण डेटासेट और नियम शामिल है।
- अपने AWS खाते में साइन इन करें और फिर चुनें स्टैक लॉन्च करें:
- पर त्वरित स्टैक बनाएँ पेज, के लिए ईमेल पता, Amazon SNS ईमेल सूचनाओं के लिए एक मान्य ईमेल पता दर्ज करें।
- शेष विकल्पों को डिफ़ॉल्ट पर सेट रहने दें।
- पावती चेक बॉक्स का चयन करें।
- चुनें स्टैक बनाएँ।
CloudFormation स्टैक तक पहुंचने में लगभग 5 मिनट का समय लगता है CREATE_COMPLETE
स्थिति।
- आपके द्वारा प्रदान किए गए ईमेल पते के इनबॉक्स की जाँच करें और SNS सदस्यता स्वीकार करें।
पूर्वाभ्यास के अंत में ईमेल अधिसूचना सुविधा प्रदर्शित करने के लिए आपको सदस्यता पुष्टिकरण की समीक्षा करने और उसे स्वीकार करने की आवश्यकता है।
पर आउटपुट स्टैक के टैब पर, आप डेटाब्रू और स्टेप फ़ंक्शंस संसाधनों को ब्राउज़ करने के लिए यूआरएल ढूंढ सकते हैं जो टेम्पलेट ने बनाया है। बाद के चरणों में आपके द्वारा उपयोग किए जाने वाले पूर्ण AWS CLI आदेशों पर भी ध्यान दें।
यदि आप चुनते हैं तो AWSGlueDataBrewRuleset
मूल्य लिंक, आपको नियम विवरण पृष्ठ देखना चाहिए, जैसा कि निम्न स्क्रीनशॉट में है। इस पूर्वाभ्यास में, हम तीन नियमों के साथ एक डेटा गुणवत्ता नियम बनाते हैं जो लापता मानों, आउटलेयर और स्ट्रिंग लंबाई की जांच करते हैं।
समाधान का परीक्षण करें
निम्न चरणों में, आप ईवेंट-चालित डेटा गुणवत्ता सत्यापन समाधान का परीक्षण करने के लिए CSV फ़ाइल के सही और गलत संस्करण अपलोड करने के लिए AWS CLI का उपयोग करते हैं।
- एक टर्मिनल या कमांड लाइन प्रॉम्प्ट खोलें और नमूना डेटा डाउनलोड करने के लिए AWS CLI का उपयोग करें। CloudFormation स्टैक आउटपुट से कुंजी नाम के साथ कमांड का उपयोग करें
CommandToDownloadTestData
: - अपने S3 बकेट में अपरिवर्तित CSV फ़ाइल अपलोड करने के लिए AWS CLI का फिर से उपयोग करें। स्ट्रिंग बदलें अपने बकेट नाम के साथ, या CloudFormation टेम्प्लेट आउटपुट से आपको दिए गए कमांड को कॉपी और पेस्ट करें:
- Step Functions कंसोल पर, CloudFormation टेम्पलेट द्वारा बनाई गई स्टेट मशीन की स्थिति जानें।
आप पहले बताए गए CloudFormation आउटपुट में एक URL पा सकते हैं।
- पर फांसी टैब, आपको राज्य मशीन का एक नया रन देखना चाहिए।
- राज्य मशीन ग्राफ़ देखने और उसकी प्रगति की निगरानी करने के लिए रन का URL चुनें।
निम्न छवि हमारे राज्य मशीन के कार्यप्रवाह को दिखाती है।
डेटा गुणवत्ता नियम की विफलता प्रदर्शित करने के लिए, आप इसमें कम से कम एक संपादन करें votes.csv
फ़ाइल.
- फ़ाइल को अपने पसंदीदा टेक्स्ट एडिटर या स्प्रेडशीट टूल में खोलें और केवल एक सेल को डिलीट करें।
निम्नलिखित स्क्रीनशॉट में, मैं लिनक्स पर जीएनयू नैनो संपादक का उपयोग करता हूं। आप किसी सेल को हटाने के लिए स्प्रेडशीट संपादक का भी उपयोग कर सकते हैं। यह विफल करने के लिए "अनुपलब्ध मानों के लिए सभी स्तंभों की जाँच करें" नियम का कारण बनता है।
निम्न स्क्रीनशॉट संशोधन से पहले CSV फ़ाइल दिखाता है।
निम्न स्क्रीनशॉट परिवर्तित CSV फ़ाइल दिखाता है।
- संपादित सहेजें
votes.csv
फ़ाइल करें और अपने कमांड प्रॉम्प्ट या टर्मिनल पर वापस आएं। - फ़ाइल को अपने S3 बकेट में एक बार और अपलोड करने के लिए AWS CLI का उपयोग करें। आप पहले की तरह ही कमांड का उपयोग करते हैं:
- स्टेप फंक्शंस कंसोल पर, इसे मॉनिटर करने के लिए नवीनतम स्टेट मशीन रन पर नेविगेट करें।
डेटा गुणवत्ता सत्यापन विफल हो जाता है, एक एसएनएस ईमेल अधिसूचना और समग्र राज्य मशीन के चलने की विफलता को ट्रिगर करता है।
निम्न छवि विफल स्थिति मशीन के वर्कफ़्लो को दिखाती है।
निम्न स्क्रीनशॉट SNS ईमेल का एक उदाहरण दिखाता है।
- आप डेटाब्रू कंसोल पर नियम विफलता की जांच कर सकते हैं
AWSGlueDataBrewProfileResults
CloudFormation स्टैक आउटपुट में मान।
क्लीन अप
भविष्य के शुल्कों से बचने के लिए, संसाधनों को हटा दें। AWS CloudFormation कंसोल पर, नाम के स्टैक को हटा दें AWSBigDataBlogDataBrewDQSample
.
निष्कर्ष
इस पोस्ट में, आपने स्वचालित, ईवेंट-संचालित डेटा गुणवत्ता सत्यापन पाइपलाइनों का निर्माण करना सीखा। DataBrew के साथ, आप अपने व्यवसाय और तकनीकी आवश्यकताओं के लिए डेटा गुणवत्ता नियम, सीमाएँ और नियम निर्धारित कर सकते हैं। स्टेप फंक्शंस, इवेंटब्रिज और अमेज़ॅन एसएनएस आपको अनुकूलन योग्य त्रुटि प्रबंधन और आपकी आवश्यकताओं के अनुरूप अलर्ट के साथ जटिल पाइपलाइन बनाने की अनुमति देते हैं।
आप इस समाधान और स्रोत कोड के बारे में अधिक जान सकते हैं गिटहब भंडार. डेटाब्रू डेटा गुणवत्ता नियमों के बारे में अधिक जानने के लिए, यहां जाएं AWS Glue DataBrew अब ग्राहकों को अपनी व्यावसायिक आवश्यकताओं को परिभाषित करने और मान्य करने के लिए डेटा गुणवत्ता नियम बनाने की अनुमति देता है या देखें एडब्ल्यूएस गोंद डेटाब्रू में डेटा गुणवत्ता मान्य करना.
लेखक के बारे में
लाथ अल-सादून Envision Engineering टीम में प्रिंसिपल प्रोटोटाइप आर्किटेक्ट हैं। वह वास्तविक दुनिया की ग्राहक समस्याओं को हल करने के लिए एआई, मशीन लर्निंग, आईओटी और एज कंप्यूटिंग, स्ट्रीमिंग एनालिटिक्स, रोबोटिक्स और स्थानिक कंप्यूटिंग का उपयोग करके प्रोटोटाइप और समाधान बनाता है। अपने खाली समय में, लैथ को फोटोग्राफी, ड्रोन उड़ानें, लंबी पैदल यात्रा और पेंटबॉलिंग जैसी बाहरी गतिविधियों का आनंद मिलता है।
गॉर्डन बर्गेस AWS Glue DataBrew के साथ एक वरिष्ठ उत्पाद प्रबंधक हैं। वह ग्राहकों को उनके डेटा से अंतर्दृष्टि खोजने में मदद करने के बारे में भावुक है, और उपयोगकर्ता अनुभव और एनालिटिक्स उत्पादों के लिए समृद्ध कार्यक्षमता के निर्माण पर ध्यान केंद्रित करता है। काम के अलावा, गॉर्डन को पढ़ना, कॉफी और कंप्यूटर बनाना पसंद है।
- '
- &
- 100
- 107
- 7
- About
- लेखा
- गतिविधियों
- पता
- AI
- सब
- वीरांगना
- विश्लेषिकी
- आवेदन
- स्थापत्य
- स्वचालित
- एडब्ल्यूएस
- निर्माण
- इमारत
- व्यापार
- प्रभार
- जाँचता
- सफाई
- कोड
- कॉफी
- स्तंभ
- जटिल
- कंप्यूटर्स
- कंप्यूटिंग
- कंसोल
- ग्राहक
- तिथि
- आँकड़े की गुणवत्ता
- दिन
- अन्य वायरल पोस्ट से
- परजीवी
- Edge
- बढ़त कंप्यूटिंग
- संपादक
- ईमेल
- समाप्त होता है
- अभियांत्रिकी
- वातावरण
- घटनाओं
- उदाहरण
- अनुभव
- विफलता
- और तेज
- Feature
- फिट
- टिकट
- पाया
- मुक्त
- समारोह
- कार्यों
- भविष्य
- बढ़ रहा है
- हैंडलिंग
- स्वास्थ्य सेवा
- मदद करता है
- हाइकिंग
- कैसे
- How To
- HTTPS
- पहचान करना
- की छवि
- लागू करने के
- अंतर्दृष्टि
- जांच
- IOT
- मुद्दों
- IT
- काम
- कुंजी
- बड़ा
- ताज़ा
- जानें
- सीखा
- सीख रहा हूँ
- लाइन
- LINK
- लिनक्स
- स्थान
- यंत्र अधिगम
- उत्पादक
- ML
- अधिक
- नैनो
- जरूरत
- अधिसूचना
- ऑप्शंस
- आदेश
- अन्य
- घर के बाहर
- फ़ोटोग्राफ़ी
- प्रिंसिपल
- एस्ट्रो मॉल
- उत्पाद
- प्रोफाइल
- प्रोटोटाइप
- प्रदाता
- गुणवत्ता
- पढ़ना
- को कम करने
- की जगह
- आवश्यकताएँ
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- परिणाम
- रिटर्न
- की समीक्षा
- रोबोटिक्स
- नियम
- रन
- स्केल
- serverless
- सेवाएँ
- सेट
- समान
- सरल
- So
- समाधान ढूंढे
- हल
- स्थानिक
- स्थानिक कंप्यूटिंग
- विशेष रूप से
- स्प्रेडशीट
- राज्य
- आँकड़े
- स्थिति
- भंडारण
- स्ट्रीमिंग
- अंशदान
- सफलता
- तकनीकी
- अंतिम
- परीक्षण
- स्रोत
- यहाँ
- पहर
- साधन
- परिवर्तन
- बदलने
- ट्यूटोरियल
- मूल्य
- देखें
- काम
- वर्कफ़्लो