আজ, কয়েক হাজার গ্রাহক বিশ্লেষণ এবং মেশিন লার্নিংয়ের জন্য ডেটা লেক ব্যবহার করে। যাইহোক, ডেটা ইঞ্জিনিয়ারদের এই ডেটা ব্যবহার করার আগে পরিষ্কার এবং প্রস্তুত করতে হবে। গ্রাহকদের আত্মবিশ্বাসী ব্যবসায়িক সিদ্ধান্ত নেওয়ার জন্য অন্তর্নিহিত ডেটা সঠিক এবং সাম্প্রতিক হতে হবে। অন্যথায়, ডেটা ভোক্তারা ডেটার উপর আস্থা হারিয়ে ফেলে এবং সাবঅপ্টিমাল বা ভুল সিদ্ধান্ত নেয়। ডেটা সঠিক এবং সাম্প্রতিক কি না তা মূল্যায়ন করা ডেটা ইঞ্জিনিয়ারদের জন্য একটি সাধারণ কাজ। আজ বিভিন্ন ডাটা কোয়ালিটি টুল আছে। যাইহোক, সাধারণ ডেটা গুণমানের সরঞ্জামগুলিতে ডেটা গুণমান নিরীক্ষণের জন্য সাধারণত ম্যানুয়াল প্রক্রিয়াগুলির প্রয়োজন হয়।
AWS Glue Data Quality এর একটি পূর্বরূপ বৈশিষ্ট্য এডাব্লুএস আঠালো যে পরিমাপ করে এবং ডেটার মান নিরীক্ষণ করে আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) ডেটা লেক এবং এডব্লিউএস গ্লু এক্সট্র্যাক্ট, ট্রান্সফর্ম এবং লোড (ETL) কাজ। এটি একটি ওপেন প্রিভিউ বৈশিষ্ট্য তাই এটি ইতিমধ্যেই আপনার অ্যাকাউন্টে সক্ষম করা আছে৷ উপলব্ধ অঞ্চল. আপনি কোডগুলি না লিখে AWS Glue Studio কনসোলে ডেটা গুণমান পরীক্ষাগুলি সহজেই সংজ্ঞায়িত এবং পরিমাপ করতে পারেন৷ এটি ডেটা গুণমান পরিচালনার আপনার অভিজ্ঞতাকে সহজ করে।
AWS Glue Data Quality কিভাবে কাজ করে তা ব্যাখ্যা করার জন্য এই পোস্টটি একটি চার-পোস্ট সিরিজের পার্ট 2। এই সিরিজের আগের পোস্ট দেখুন:
এই পোস্টে, আমরা দেখাই কিভাবে একটি AWS Glue কাজ তৈরি করতে হয় যা একটি ডেটা পাইপলাইনের ডেটা গুণমান পরিমাপ করে এবং নিরীক্ষণ করে। ডাটা মানের ফলাফলের উপর ভিত্তি করে কিভাবে পদক্ষেপ নিতে হয় তাও আমরা দেখাই।
সমাধান ওভারভিউ
আসুন একটি উদাহরণ ব্যবহারের ক্ষেত্রে বিবেচনা করা যাক যেখানে একজন ডেটা ইঞ্জিনিয়ারকে একটি ডাটা লেকের একটি কাঁচা অঞ্চল থেকে একটি কিউরেটেড জোনে ডেটা গ্রহণ করার জন্য একটি ডেটা পাইপলাইন তৈরি করতে হবে। একজন ডাটা ইঞ্জিনিয়ার হিসেবে, আপনার প্রধান দায়িত্বগুলির মধ্যে একটি — ডেটা এক্সট্র্যাক্ট করা, ট্রান্সফর্ম করা এবং লোড করা — ডেটার গুণমান যাচাই করা। ডেটা মানের সমস্যাগুলি আগে থেকেই সনাক্ত করা আপনাকে কিউরেটেড জোনে খারাপ ডেটা স্থাপন করা প্রতিরোধ করতে এবং কঠিন ডেটা দুর্নীতির ঘটনা এড়াতে সহায়তা করে।
এই পোস্টে, আপনি কীভাবে সহজে সেট আপ করবেন তা শিখবেন বিল্ট-ইন এবং প্রথা ডাউনস্ট্রিম উচ্চ মানের ডেটা নষ্ট হওয়া থেকে খারাপ ডেটা প্রতিরোধ করতে আপনার AWS Glue কাজের মধ্যে ডেটা বৈধতা পরীক্ষা করে।
এই পোস্টের জন্য ব্যবহৃত ডেটাসেট কৃত্রিমভাবে তৈরি করা হয়; নিম্নলিখিত স্ক্রিনশট ডেটার একটি উদাহরণ দেখায়।
AWS CloudFormation এর সাথে সংস্থান সেট আপ করুন
এই পোস্ট একটি অন্তর্ভুক্ত এডাব্লুএস ক্লাউডফর্মেশন একটি দ্রুত সেটআপের জন্য টেমপ্লেট। আপনি আপনার প্রয়োজন অনুসারে এটি পর্যালোচনা এবং কাস্টমাইজ করতে পারেন।
ক্লাউডফর্মেশন টেমপ্লেটটি নিম্নলিখিত সংস্থানগুলি উত্পন্ন করে:
- একটি অ্যামাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি (
gluedataqualitystudio-*
). - S3 বালতিতে নিম্নলিখিত উপসর্গ এবং বস্তু:
datalake/raw/customer/customer.csv
datalake/curated/customer/
scripts/
sparkHistoryLogs/
temporary/
- এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) ব্যবহারকারী, ভূমিকা এবং নীতি। আইএএম ভূমিকা (
GlueDataQualityStudio-*
) S3 বালতি থেকে পড়ার এবং লেখার অনুমতি রয়েছে৷ - এডাব্লুএস ল্যাম্বদা এই স্ট্যাক তৈরি এবং মুছে ফেলার জন্য সেই ফাংশনগুলির দ্বারা প্রয়োজনীয় ফাংশন এবং IAM নীতিগুলি।
আপনার সংস্থানগুলি তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- সাইন ইন করুন AWS ক্লাউডফর্মেশন কনসোল মধ্যে
us-east-1
অঞ্চল। - বেছে নিন স্ট্যাক চালু করুন:
- নির্বাচন করা আমি স্বীকার করি যে এডাব্লুএস ক্লাউডফর্মেশন আইএএম সংস্থান তৈরি করতে পারে.
- বেছে নিন স্ট্যাক তৈরি করুন এবং স্ট্যাক তৈরির ধাপটি সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।
সমাধান বাস্তবায়ন করুন
আপনার সমাধান কনফিগার করা শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- উপরে AWS গ্লু স্টুডিও কনসোলনির্বাচন জবস নেভিগেশন ফলকে।
- নির্বাচন করা একটি ফাঁকা ক্যানভাস সঙ্গে ভিজ্যুয়াল এবং নির্বাচন করুন সৃষ্টি.
- পছন্দ চাকরির বিস্তারিত কাজ কনফিগার করতে ট্যাব।
- জন্য নামপ্রবেশ করান
GlueDataQualityStudio
. - জন্য আইএএম ভূমিকা, দিয়ে শুরু ভূমিকা চয়ন করুন
GlueDataQualityStudio-*
. - জন্য আঠালো সংস্করণনির্বাচন আঠালো 3.0.
- জন্য কাজের বুকমার্কনির্বাচন অক্ষম. এটি আপনাকে একই ইনপুট ডেটাসেটের সাথে একাধিকবার এই কাজটি চালানোর অনুমতি দেয়।
- জন্য পুনঃপ্রয়াসের সংখ্যাপ্রবেশ করান
0
. - মধ্যে উন্নত বৈশিষ্ট্য বিভাগে, ক্লাউডফর্মেশন টেমপ্লেট দ্বারা তৈরি S3 বালতি প্রদান করুন ( দিয়ে শুরু
gluedataqualitystudio-*
). - বেছে নিন সংরক্ষণ করুন.
- কাজ সংরক্ষণ করা হয় পরে, নির্বাচন করুন চাক্ষুষ ট্যাব এবং উপর উৎস মেনু, নির্বাচন করুন আমাজন S3.
- উপরে তথ্য উৎস বৈশিষ্ট্য - S3 ট্যাব, জন্য S3 উৎস প্রকার, নির্বাচন করুন S3 অবস্থান.
- বেছে নিন S3 ব্রাউজ করুন এবং প্রিফিক্সে নেভিগেট করুন
/datalake/raw/customer/
S3 বালতি দিয়ে শুরুgluedataqualitystudio-*
. - বেছে নিন অনুমান স্কিমা.
- উপরে কর্ম মেনু, নির্বাচন করুন ডেটা গুণমান মূল্যায়ন করুন.
- পছন্দ ডেটা গুণমান মূল্যায়ন করুন নোড
উপরে রুপান্তর ট্যাব, আপনি এখন ডেটা মানের নিয়ম তৈরি করা শুরু করতে পারেন। আপনি তৈরি প্রথম নিয়ম যদি পরীক্ষা করা হয়Customer_ID
অনন্য এবং শূন্য না ব্যবহার করেisPrimaryKey
নিয়ম. - উপরে নিয়মের ধরন ট্যাব DQDL নিয়ম নির্মাতা, সন্ধান করা
isprimarykey
এবং প্লাস চিহ্ন নির্বাচন করুন। - উপরে স্কিমা ট্যাব DQDL নিয়ম নির্মাতা, পাশের প্লাস চিহ্নটি বেছে নিন
Customer_ID
. - নিয়ম সম্পাদকে, মুছুন
id
.
পরবর্তী নিয়ম আমরা চেক যোগ করুন যেFirst_Name
কলাম মান সব সারি জন্য উপস্থিত. - এছাড়াও আপনি নিয়ম সম্পাদকে সরাসরি ডেটা গুণমানের নিয়ম লিখতে পারেন। একটি কমা যোগ করুন (,) এবং লিখুন
IsComplete "First_Name",
প্রথম নিয়মের পরে।
এরপরে, আপনি একটি কাস্টম নিয়ম যোগ করুন যাতে যাচাই করা যায় যে কোনো সারি ছাড়া বিদ্যমান নেইTelephone
orEmail
. - নিয়ম সম্পাদকে নিম্নলিখিত কাস্টম নিয়ম লিখুন:
ডেটা কোয়ালিটি মূল্যায়ন বৈশিষ্ট্যটি কাজের মানের ফলাফলের উপর ভিত্তি করে একটি কাজের ফলাফল পরিচালনা করার জন্য কর্ম প্রদান করে। - এই পোস্টের জন্য, নির্বাচন করুন ডেটা গুণমান ব্যর্থ হলে কাজ ব্যর্থ হয় এবং নির্বাচন করুন লক্ষ্য লোড ছাড়া কাজ ব্যর্থ উপাত্ত কর্ম মধ্যে ডেটা মানের আউটপুট সেটিং বিভাগ, চয়ন করুন S3 ব্রাউজ করুন এবং প্রিফিক্সে নেভিগেট করুন
dqresults
S3 বালতি দিয়ে শুরুgluedataqualitystudio-*
. - উপরে লক্ষ্য মেনু, নির্বাচন করুন আমাজন S3.
- পছন্দ ডেটা লক্ষ্য – S3 বালতি নোড
- উপরে ডেটা লক্ষ্য বৈশিষ্ট্য – S3 ট্যাব, জন্য বিন্যাসনির্বাচন কাঠের মেঝে, এবং জন্য কম্প্রেশন টাইপনির্বাচন আকস্মিক.
- জন্য S3 টার্গেট অবস্থাননির্বাচন S3 ব্রাউজ করুন এবং উপসর্গে নেভিগেট করুন
/datalake/curated/customer/
S3 বালতি দিয়ে শুরুgluedataqualitystudio-*
. - বেছে নিন সংরক্ষণ করুন, তাহলে বেছে নাও চালান.
আপনি রান ট্যাবে চাকরির বিস্তারিত বিবরণ দেখতে পারেন। আমাদের উদাহরণে, "AssertionError: নোডের জন্য DQ নিয়ম ব্যর্থ হওয়ার কারণে কাজটি ব্যর্থ হয়েছে:" ত্রুটি বার্তা দিয়ে কাজটি ব্যর্থ হয়: "
আপনি ডেটা গুণমান ট্যাবে ডেটা গুণমানের ফলাফল পর্যালোচনা করতে পারেন। আমাদের উদাহরণে, কাস্টম ডেটা মানের যাচাইকরণ ব্যর্থ হয়েছে কারণ ডেটাসেটের একটি সারিতে নেই৷Telephone
orEmail
মান।নোডের ডেটা গুণমানের ফলাফল অবস্থানের পরামিতির উপর ভিত্তি করে JSON বিন্যাসে S3 বাকেট-এ ডেটা গুণমানের ফলাফল মূল্যায়ন করা হয়। - নেভিগেট করুন
dqresults
শুরু S3 বালতি অধীনে উপসর্গgluedataqualitystudio-*
. আপনি দেখতে পাবেন যে ডেটা গুণমানের ফলাফল তারিখ অনুসারে বিভাজিত হয়েছে।
নিম্নলিখিত JSON ফাইলের আউটপুট. আপনি কাস্টম ডেটা মানের ভিজ্যুয়ালাইজেশন ড্যাশবোর্ড তৈরি করতে এই ফাইল আউটপুট ব্যবহার করতে পারেন।
এছাড়াও আপনি নিরীক্ষণ করতে পারেন ডেটা গুণমান মূল্যায়ন করুন নোড মাধ্যমে অ্যামাজন ক্লাউডওয়াচ মেট্রিক্স এবং ডেটা মানের ফলাফল সম্পর্কে বিজ্ঞপ্তি পাঠাতে অ্যালার্ম সেট করুন। ক্লাউডওয়াচ অ্যালার্ম কীভাবে সেট আপ করবেন সে সম্পর্কে আরও জানতে, পড়ুন Amazon CloudWatch অ্যালার্ম ব্যবহার করে.
পরিষ্কার কর
ভবিষ্যতের চার্জ এড়াতে এবং অব্যবহৃত ভূমিকা এবং নীতিগুলি পরিষ্কার করতে, আপনার তৈরি সংস্থানগুলি মুছুন:
- মুছে দিন
GlueDataQualityStudio
আপনি এই পোস্টের অংশ হিসাবে তৈরি করা চাকরি। - AWS CloudFormation কনসোলে, মুছুন
GlueDataQualityStudio
স্ট্যাক।
উপসংহার
AWS আঠালো ডেটা গুণমান আপনার ETL পাইপলাইনের ডেটা গুণমান পরিমাপ এবং নিরীক্ষণ করার একটি সহজ উপায় অফার করে। এই পোস্টে, আপনি শিখেছেন কীভাবে ডেটা গুণমানের ফলাফলের উপর ভিত্তি করে প্রয়োজনীয় পদক্ষেপ নিতে হয়, যা আপনাকে উচ্চ ডেটা মান বজায় রাখতে এবং আত্মবিশ্বাসী ব্যবসায়িক সিদ্ধান্ত নিতে সাহায্য করে।
AWS আঠালো ডেটা গুণমান সম্পর্কে আরও জানতে, ডকুমেন্টেশন দেখুন:
লেখক সম্পর্কে
দীনবন্ধু প্রসাদ AWS-এর একজন সিনিয়র অ্যানালিটিক্স বিশেষজ্ঞ, বড় ডেটা পরিষেবায় বিশেষজ্ঞ। তিনি গ্রাহকদের AWS ক্লাউডে আধুনিক ডেটা আর্কিটেকচার তৈরি করতে সহায়তা করার বিষয়ে উত্সাহী৷ তিনি সমস্ত আকারের গ্রাহকদের ডেটা ব্যবস্থাপনা, ডেটা গুদাম এবং ডেটা লেক সমাধানগুলি বাস্তবায়নে সহায়তা করেছেন।
ইয়ানিস মেনটেকিডিস AWS Glue টিমের একজন সিনিয়র সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-for-etl-pipelines/
- 1
- 100
- 7
- a
- সম্পর্কে
- প্রবেশ
- হিসাব
- সঠিক
- স্বীকার করা
- কর্ম
- স্টক
- পর
- সব
- অনুমতি
- ইতিমধ্যে
- মর্দানী স্ত্রীলোক
- বৈশ্লেষিক ন্যায়
- এবং
- স্থাপত্য
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস আঠালো
- খারাপ
- খারাপ ডেটা
- ভিত্তি
- কারণ
- আগে
- বিশাল
- বড় ডেটা
- নির্মাণ করা
- ভবন
- ব্যবসায়
- কেস
- চার্জ
- চেক
- চেক
- বেছে নিন
- মেঘ
- স্তম্ভ
- সাধারণ
- সম্পূর্ণ
- সুনিশ্চিত
- বিবেচনা
- কনসোল
- কনজিউমার্স
- দুর্নীতি
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- প্লেলিস্টে যোগ করা
- প্রথা
- ক্রেতা
- গ্রাহকদের
- কাস্টমাইজ
- উপাত্ত
- ডেটা লেক
- ডাটা ব্যাবস্থাপনা
- তারিখ
- সিদ্ধান্ত
- বিস্তারিত
- উন্নয়ন
- সরাসরি
- ডকুমেন্টেশন
- সহজে
- সম্পাদক
- ইমেইল
- প্রকৌশলী
- প্রকৌশলী
- প্রবেশ করান
- ভুল
- থার (eth)
- মূল্যায়ন
- উদাহরণ
- বিদ্যমান
- অভিজ্ঞতা
- ব্যাখ্যা করা
- নির্যাস
- ব্যর্থ
- ব্যর্থ
- বৈশিষ্ট্য
- ফাইল
- প্রথম
- অনুসরণ
- বিন্যাস
- থেকে
- ক্রিয়াকলাপ
- ভবিষ্যৎ
- উত্পন্ন
- উত্পন্ন
- পেয়ে
- সাহায্য
- সাহায্য
- সাহায্য
- উচ্চ
- উচ্চ গুনসম্পন্ন
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTPS দ্বারা
- শত শত
- চিহ্নিতকরণের
- পরিচয়
- বাস্তবায়ন
- in
- অন্তর্ভুক্ত
- ইনপুট
- সমস্যা
- IT
- কাজ
- জবস
- JSON
- চাবি
- হ্রদ
- শিখতে
- জ্ঞানী
- শিক্ষা
- বোঝা
- বোঝাই
- অবস্থান
- হারান
- মেশিন
- মেশিন লার্নিং
- বজায় রাখা
- করা
- পরিচালনা করা
- ব্যবস্থাপনা
- পরিচালক
- ম্যানুয়াল
- মাপ
- পরিমাপ
- মেনু
- বার্তা
- ছন্দোবিজ্ঞান
- হতে পারে
- আধুনিক
- মনিটর
- মনিটর
- অধিক
- বহু
- নেভিগেট করুন
- ন্যাভিগেশন
- প্রয়োজনীয়
- চাহিদা
- পরবর্তী
- নোড
- বিজ্ঞপ্তি
- বস্তু
- অফার
- ONE
- খোলা
- অন্যভাবে
- শার্সি
- স্থিতিমাপ
- অংশ
- কামুক
- অনুমতি
- পাইপলাইন
- স্থাপন
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- যোগ
- নীতি
- পোস্ট
- প্রস্তুত করা
- বর্তমান
- প্রতিরোধ
- প্রি
- আগে
- প্রাথমিক
- প্রসেস
- বৈশিষ্ট্য
- প্রদান
- উপলব্ধ
- গুণ
- দ্রুত
- কাঁচা
- পড়া
- সাম্প্রতিক
- এলাকা
- প্রয়োজন
- প্রয়োজনীয়
- Resources
- ফল
- ফলাফল
- এখানে ক্লিক করুন
- ভূমিকা
- ভূমিকা
- সারিটি
- নিয়ম
- নিয়ম
- চালান
- একই
- সার্চ
- অধ্যায়
- ক্রম
- সেবা
- সেবা
- সেট
- বিন্যাস
- সেটআপ
- প্রদর্শনী
- শো
- চিহ্ন
- সহজ
- মাপ
- So
- সফটওয়্যার
- সফটওয়্যার উন্নয়ন
- সমাধান
- সলিউশন
- উৎস
- বিশেষজ্ঞ
- বিশেষজ্ঞ
- গাদা
- মান
- শুরু
- শুরু
- শুরু হচ্ছে
- ধাপ
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- চিত্রশালা
- মামলা
- কৃত্রিমভাবে
- গ্রহণ করা
- লক্ষ্য
- কার্য
- টীম
- টেমপ্লেট
- সার্জারির
- হাজার হাজার
- দ্বারা
- বার
- থেকে
- আজ
- সরঞ্জাম
- রুপান্তর
- রূপান্তর
- আস্থা
- অধীনে
- নিম্নাবস্থিত
- অনন্য
- অব্যবহৃত
- ব্যবহার
- ব্যবহার ক্ষেত্রে
- ব্যবহারকারী
- সাধারণত
- যাচাই করুন
- বৈধতা
- মূল্য
- বিভিন্ন
- চেক
- কল্পনা
- অপেক্ষা করুন
- কিনা
- যে
- ইচ্ছা
- ছাড়া
- কাজ
- লেখা
- লেখা
- লিখিত
- আপনার
- zephyrnet