आज, लाखों ग्राहक एनालिटिक्स और मशीन लर्निंग के लिए डेटा लेक का उपयोग करते हैं। हालाँकि, डेटा इंजीनियरों को इस डेटा का उपयोग करने से पहले इसे साफ़ और तैयार करना होगा। अंतर्निहित डेटा सटीक होना चाहिए और ग्राहक के लिए भरोसेमंद व्यावसायिक निर्णय लेने के लिए हालिया होना चाहिए। अन्यथा, डेटा उपभोक्ता डेटा में विश्वास खो देते हैं और उप-इष्टतम या गलत निर्णय लेते हैं। डेटा इंजीनियरों के लिए यह मूल्यांकन करना एक सामान्य कार्य है कि डेटा सटीक और हालिया है या नहीं। आज विभिन्न डेटा गुणवत्ता उपकरण हैं। हालाँकि, सामान्य डेटा गुणवत्ता उपकरणों को आमतौर पर डेटा गुणवत्ता की निगरानी के लिए मैन्युअल प्रक्रियाओं की आवश्यकता होती है।
एडब्ल्यूएस ग्लू डेटा क्वालिटी का पूर्वावलोकन फीचर है एडब्ल्यूएस गोंद की डेटा गुणवत्ता को मापता है और उसकी निगरानी करता है अमेज़न सरल भंडारण सेवा (Amazon S3) डेटा लेक्स और AWS ग्लू एक्सट्रैक्ट, ट्रांसफ़ॉर्म और लोड (ETL) जॉब्स। यह एक खुली पूर्वावलोकन सुविधा है इसलिए यह आपके खाते में पहले से ही सक्षम है उपलब्ध क्षेत्र. आप कोड लिखे बिना AWS Glue Studio कंसोल में डेटा गुणवत्ता जांच को आसानी से परिभाषित और माप सकते हैं। यह डेटा गुणवत्ता के प्रबंधन के आपके अनुभव को सरल बनाता है।
यह पोस्ट एडब्ल्यूएस ग्लू डेटा गुणवत्ता कैसे काम करती है, यह समझाने के लिए चार-पोस्ट श्रृंखला का भाग 2 है। इस श्रृंखला में पिछली पोस्ट देखें:
इस पोस्ट में, हम दिखाते हैं कि एडब्ल्यूएस ग्लू जॉब कैसे बनाया जाता है जो डेटा पाइपलाइन की डेटा गुणवत्ता को मापता है और उसकी निगरानी करता है। हम यह भी दिखाते हैं कि डेटा गुणवत्ता परिणामों के आधार पर कार्रवाई कैसे करें।
समाधान अवलोकन
आइए एक उदाहरण के उपयोग के मामले पर विचार करें जिसमें एक डेटा इंजीनियर को एक कच्चे क्षेत्र से एक डेटा झील में एक क्यूरेटेड क्षेत्र में डेटा को निगलना करने के लिए एक डेटा पाइपलाइन बनाने की आवश्यकता होती है। डेटा इंजीनियर के रूप में, डेटा निकालने, बदलने और लोड करने के साथ-साथ आपकी प्रमुख ज़िम्मेदारियों में से एक डेटा की गुणवत्ता को मान्य करना है। डेटा गुणवत्ता के मुद्दों की पहचान करने से आपको खराब डेटा को क्यूरेटेड ज़ोन में रखने से रोकने में मदद मिलती है और कठिन डेटा भ्रष्टाचार की घटनाओं से बचा जा सकता है।
इस पोस्ट में, आप सीखेंगे कि कैसे आसानी से सेट अप करना है में निर्मित और रिवाज खराब डेटा को डाउनस्ट्रीम उच्च-गुणवत्ता वाले डेटा को दूषित करने से रोकने के लिए आपके AWS ग्लू जॉब में डेटा सत्यापन जाँच करता है।
इस पोस्ट के लिए उपयोग किया जाने वाला डेटासेट कृत्रिम रूप से उत्पन्न होता है; निम्न स्क्रीनशॉट डेटा का एक उदाहरण दिखाता है।
AWS CloudFormation के साथ संसाधन सेट करें
इस पोस्ट में शामिल हैं एडब्ल्यूएस CloudFormation त्वरित सेटअप के लिए टेम्पलेट। आप अपनी आवश्यकताओं के अनुरूप इसकी समीक्षा और अनुकूलन कर सकते हैं।
CloudFormation टेम्पलेट निम्नलिखित संसाधन उत्पन्न करता है:
- एक अमेज़ॅन सिंपल स्टोरेज सर्विस (अमेज़ॅन S3) बकेट (
gluedataqualitystudio-*
). - S3 बकेट में निम्नलिखित उपसर्ग और वस्तुएँ:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- AWS पहचान और अभिगम प्रबंधन (आईएएम) उपयोगकर्ता, भूमिकाएं और नीतियां। आईएएम भूमिका (
GlueDataQualityStudio-*
) को S3 बकेट से पढ़ने और लिखने की अनुमति है। - AWS लाम्बा इस स्टैक को बनाने और हटाने के लिए उन कार्यों द्वारा आवश्यक कार्य और IAM नीतियां।
अपने संसाधन बनाने के लिए, निम्नलिखित चरणों को पूरा करें:
- में साइन इन करें AWS CloudFormation कंसोल में
us-east-1
क्षेत्र। - चुनें स्टैक लॉन्च करें:
- चुनते हैं मैं स्वीकार करता हूं कि AWS CloudFormation IAM संसाधन बना सकता है.
- चुनें स्टैक बनाएँ और स्टैक निर्माण चरण के पूरा होने की प्रतीक्षा करें।
समाधान लागू करें
अपने समाधान को कॉन्फ़िगर करना प्रारंभ करने के लिए, निम्न चरणों को पूरा करें:
- पर एडब्ल्यूएस गोंद स्टूडियो कंसोल, चुनें नौकरियां नेविगेशन फलक में
- चुनते हैं एक खाली कैनवास के साथ दृश्य और चुनें बनाएं.
- चुनना नौकरी विवरण कार्य को कॉन्फ़िगर करने के लिए टैब।
- के लिए नाम, दर्ज
GlueDataQualityStudio
. - के लिए IAM भूमिका, से शुरू होने वाली भूमिका चुनें
GlueDataQualityStudio-*
. - के लिए गोंद संस्करण, चुनें गोंद १.
- के लिए नौकरी का बुकमार्क, चुनें अक्षम. यह आपको एक ही इनपुट डेटासेट के साथ इस कार्य को कई बार चलाने की अनुमति देता है।
- के लिए पुनर्प्रयास की संख्या, दर्ज
0
. - में उन्नत गुण अनुभाग, CloudFormation टेम्प्लेट द्वारा बनाई गई S3 बकेट प्रदान करें (शुरुआत
gluedataqualitystudio-*
). - चुनें सहेजें.
- कार्य सहेजे जाने के बाद, चुनें दृश्य टैब और पर स्रोत मेनू, चुनें अमेज़न S3.
- पर डेटा स्रोत गुण - S3 टैब, के लिए S3 स्रोत प्रकार, चुनते हैं S3 स्थान.
- चुनें S3 ब्राउज़ करें और उपसर्ग पर नेविगेट करें
/datalake/raw/customer/
से शुरू होने वाली S3 बकेट मेंgluedataqualitystudio-*
. - चुनें स्कीमा का अनुमान लगाएं.
- पर कार्य मेनू, चुनें डेटा गुणवत्ता का मूल्यांकन करें.
- चुनना डेटा गुणवत्ता का मूल्यांकन करें नोड।
पर बदालना टैब, अब आप डेटा गुणवत्ता नियम बनाना शुरू कर सकते हैं। आपके द्वारा बनाया गया पहला नियम यह जांचना है कि क्याCustomer_ID
अद्वितीय है और का उपयोग करके अशक्त नहीं हैisPrimaryKey
राज करते हैं। - पर नियम प्रकार का टैब डीक्यूडीएल नियम निर्माता, निम्न को खोजें
isprimarykey
और धन चिह्न चुनें। - पर स्कीमा का टैब डीक्यूडीएल नियम निर्माता, के आगे धन चिह्न चुनें
Customer_ID
. - नियम संपादक में, हटाएं
id
.
अगला नियम हम चेक जोड़ते हैं किFirst_Name
स्तंभ मान सभी पंक्तियों के लिए मौजूद है। - आप सीधे नियम संपादक में डेटा गुणवत्ता नियम भी दर्ज कर सकते हैं। एक अल्पविराम (,) जोड़ें और दर्ज करें
IsComplete "First_Name",
पहले नियम के बाद।
इसके बाद, आप यह सत्यापित करने के लिए एक कस्टम नियम जोड़ते हैं कि बिना कोई पंक्ति मौजूद नहीं हैTelephone
orEmail
. - नियम संपादक में निम्नलिखित कस्टम नियम दर्ज करें:
मूल्यांकन डेटा गुणवत्ता सुविधा कार्य गुणवत्ता परिणामों के आधार पर कार्य के परिणाम को प्रबंधित करने के लिए क्रियाएँ प्रदान करती है। - इस पद के लिए, चयन करें डेटा गुणवत्ता विफल होने पर कार्य विफल और चुनें लक्ष्य लोड किए बिना विफल कार्य तिथि कार्रवाई। में डेटा गुणवत्ता आउटपुट सेटिंग अनुभाग चुनते हैं, S3 ब्राउज़ करें और उपसर्ग पर नेविगेट करें
dqresults
से शुरू होने वाली S3 बकेट मेंgluedataqualitystudio-*
. - पर लक्ष्य मेनू, चुनें अमेज़न S3.
- चुनना डेटा लक्ष्य - S3 बाल्टी नोड।
- पर डेटा लक्ष्य गुण - S3 टैब, के लिए का गठन, चुनें लकड़ी की छतके लिए, और संपीड़न प्रकार, चुनें तेज़.
- के लिए S3 लक्ष्य स्थान, चुनें S3 ब्राउज़ करें और उपसर्ग पर नेविगेट करें
/datalake/curated/customer/
से शुरू होने वाली S3 बकेट मेंgluedataqualitystudio-*
. - चुनें सहेजें, उसके बाद चुनो रन.
आप रन टैब पर जॉब रन विवरण देख सकते हैं। हमारे उदाहरण में, त्रुटि संदेश के साथ कार्य विफल हो जाता है "अभिकथन त्रुटि: नोड के लिए DQ नियम विफल होने के कारण कार्य विफल: ।”
आप डेटा गुणवत्ता टैब पर डेटा गुणवत्ता परिणाम की समीक्षा कर सकते हैं। हमारे उदाहरण में, कस्टम डेटा गुणवत्ता सत्यापन विफल हो गया क्योंकि डेटासेट में पंक्तियों में से एक में नहीं थाTelephone
orEmail
मूल्य.नोड के डेटा गुणवत्ता परिणाम स्थान पैरामीटर के आधार पर JSON प्रारूप में S3 बकेट को मूल्यांकन डेटा गुणवत्ता परिणाम भी लिखा जाता है। - पर जाए
dqresults
S3 बकेट स्टार्टिंग के तहत उपसर्गgluedataqualitystudio-*
. आप देखेंगे कि डेटा गुणवत्ता परिणाम तिथि के अनुसार विभाजित है।
निम्नलिखित JSON फ़ाइल का आउटपुट है। कस्टम डेटा गुणवत्ता विज़ुअलाइज़ेशन डैशबोर्ड बनाने के लिए आप इस फ़ाइल आउटपुट का उपयोग कर सकते हैं।
आप निगरानी भी कर सकते हैं डेटा गुणवत्ता का मूल्यांकन करें नोड के माध्यम से अमेज़ॅन क्लाउडवॉच मेट्रिक्स और डेटा गुणवत्ता परिणामों के बारे में सूचनाएं भेजने के लिए अलार्म सेट करें। क्लाउडवॉच अलार्म सेट अप करने के तरीके के बारे में और जानने के लिए देखें Amazon CloudWatch अलार्म का उपयोग करना.
क्लीन अप
भविष्य के शुल्कों से बचने और अप्रयुक्त भूमिकाओं और नीतियों को साफ करने के लिए, आपके द्वारा बनाए गए संसाधनों को हटा दें:
- हटाएं
GlueDataQualityStudio
आपके द्वारा इस पोस्ट के हिस्से के रूप में बनाई गई नौकरी। - AWS CloudFormation कंसोल पर, हटाएं
GlueDataQualityStudio
ढेर।
निष्कर्ष
एडब्ल्यूएस गोंद डेटा गुणवत्ता आपके ईटीएल पाइपलाइन की डेटा गुणवत्ता को मापने और निगरानी करने का एक आसान तरीका प्रदान करती है। इस पोस्ट में, आपने सीखा कि डेटा गुणवत्ता परिणामों के आधार पर आवश्यक कार्रवाइयाँ कैसे की जाती हैं, जो आपको उच्च डेटा मानकों को बनाए रखने और विश्वसनीय व्यावसायिक निर्णय लेने में मदद करती हैं।
एडब्ल्यूएस गोंद डेटा गुणवत्ता के बारे में अधिक जानने के लिए दस्तावेज़ देखें:
लेखक के बारे में
दीनबंधु प्रसाद AWS में एक वरिष्ठ विश्लेषिकी विशेषज्ञ हैं, जो बड़ी डेटा सेवाओं में विशेषज्ञता रखते हैं। उन्हें AWS क्लाउड पर आधुनिक डेटा आर्किटेक्चर बनाने में ग्राहकों की मदद करने का जुनून है। उन्होंने सभी आकार के ग्राहकों को डेटा प्रबंधन, डेटा वेयरहाउस और डेटा लेक समाधान लागू करने में मदद की है।
यानिस मेंटेकिडिस एडब्ल्यूएस गोंद टीम में एक वरिष्ठ सॉफ्टवेयर विकास अभियंता है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- About
- पहुँच
- लेखा
- सही
- स्वीकार करना
- कार्य
- कार्रवाई
- बाद
- सब
- की अनुमति देता है
- पहले ही
- वीरांगना
- विश्लेषिकी
- और
- स्थापत्य
- एडब्ल्यूएस
- एडब्ल्यूएस CloudFormation
- एडब्ल्यूएस गोंद
- बुरा
- बुरा डेटा
- आधारित
- क्योंकि
- से पहले
- बड़ा
- बड़ा डेटा
- निर्माण
- इमारत
- व्यापार
- मामला
- प्रभार
- चेक
- जाँचता
- चुनें
- बादल
- स्तंभ
- सामान्य
- पूरा
- आश्वस्त
- विचार करना
- कंसोल
- उपभोक्ताओं
- भ्रष्टाचार
- बनाना
- बनाया
- निर्माण
- क्यूरेट
- रिवाज
- ग्राहक
- ग्राहक
- अनुकूलित
- तिथि
- डेटा लेक
- आँकड़ा प्रबंधन
- तारीख
- निर्णय
- विवरण
- विकास
- सीधे
- दस्तावेज़ीकरण
- आसानी
- संपादक
- ईमेल
- इंजीनियर
- इंजीनियर्स
- दर्ज
- त्रुटि
- ईथर (ईटीएच)
- मूल्यांकन करें
- उदाहरण
- मौजूद
- अनुभव
- समझाना
- उद्धरण
- विफल रहे
- विफल रहता है
- Feature
- पट्टिका
- प्रथम
- निम्नलिखित
- प्रारूप
- से
- कार्यों
- भविष्य
- उत्पन्न
- उत्पन्न करता है
- मिल रहा
- मदद की
- मदद
- मदद करता है
- हाई
- उच्च गुणवत्ता
- कैसे
- How To
- तथापि
- एचटीएमएल
- HTTPS
- सैकड़ों
- पहचान
- पहचान
- लागू करने के
- in
- शामिल
- निवेश
- मुद्दों
- IT
- काम
- नौकरियां
- JSON
- कुंजी
- झील
- जानें
- सीखा
- सीख रहा हूँ
- भार
- लोड हो रहा है
- स्थान
- खोना
- मशीन
- यंत्र अधिगम
- बनाए रखना
- बनाना
- प्रबंधन
- प्रबंध
- प्रबंध
- गाइड
- माप
- उपायों
- मेन्यू
- message
- मेट्रिक्स
- हो सकता है
- आधुनिक
- मॉनिटर
- पर नज़र रखता है
- अधिक
- विभिन्न
- नेविगेट करें
- पथ प्रदर्शन
- आवश्यक
- की जरूरत है
- अगला
- नोड
- सूचनाएं
- वस्तुओं
- ऑफर
- ONE
- खुला
- अन्यथा
- फलक
- प्राचल
- भाग
- आवेशपूर्ण
- अनुमति
- पाइपलाइन
- लगाना
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- प्लस
- नीतियाँ
- पद
- तैयार करना
- वर्तमान
- को रोकने के
- पूर्वावलोकन
- पिछला
- प्राथमिक
- प्रक्रियाओं
- गुण
- प्रदान करना
- प्रदान करता है
- गुणवत्ता
- त्वरित
- कच्चा
- पढ़ना
- हाल
- क्षेत्र
- की आवश्यकता होती है
- अपेक्षित
- उपयुक्त संसाधन चुनें
- परिणाम
- परिणाम
- की समीक्षा
- भूमिका
- भूमिकाओं
- आरओडब्ल्यू
- नियम
- नियम
- रन
- वही
- Search
- अनुभाग
- कई
- सेवा
- सेवाएँ
- सेट
- की स्थापना
- व्यवस्था
- दिखाना
- दिखाता है
- हस्ताक्षर
- सरल
- आकार
- So
- सॉफ्टवेयर
- सॉफ्टवेयर विकास
- समाधान
- समाधान ढूंढे
- स्रोत
- विशेषज्ञ
- विशेषज्ञता
- धुआँरा
- मानकों
- प्रारंभ
- शुरू
- शुरुआत में
- कदम
- कदम
- भंडारण
- स्टूडियो
- सूट
- कृत्रिम
- लेना
- लक्ष्य
- कार्य
- टीम
- टेम्पलेट
- RSI
- हजारों
- यहाँ
- बार
- सेवा मेरे
- आज
- उपकरण
- बदालना
- बदलने
- ट्रस्ट
- के अंतर्गत
- आधारभूत
- अद्वितीय
- अप्रयुक्त
- उपयोग
- उदाहरण
- उपयोगकर्ताओं
- आमतौर पर
- सत्यापित करें
- सत्यापन
- मूल्य
- विभिन्न
- देखें
- दृश्य
- प्रतीक्षा
- या
- कौन कौन से
- मर्जी
- बिना
- कार्य
- लिखना
- लिख रहे हैं
- लिखा हुआ
- आपका
- जेफिरनेट