এডাব্লুএস আঠালো একটি সার্ভারহীন ডেটা ইন্টিগ্রেশন পরিষেবা যা বিশ্লেষণ, মেশিন লার্নিং (এমএল) এবং অ্যাপ্লিকেশন বিকাশের জন্য ডেটা আবিষ্কার, প্রস্তুত এবং একত্রিত করা সহজ করে তোলে। আপনি ডেটা ইন্টিগ্রেশন এবং ETL (এক্সট্রাক্ট, ট্রান্সফর্ম এবং লোড) পাইপলাইন তৈরি করতে, চালাতে এবং নিরীক্ষণ করতে AWS গ্লু ব্যবহার করতে পারেন এবং একাধিক ডেটা স্টোর জুড়ে আপনার সম্পদগুলি ক্যাটালগ করতে পারেন।
হাজার হাজার গ্রাহক ডেটা-চালিত ব্যবসায়িক সিদ্ধান্ত নেওয়ার জন্য বিশ্লেষণ এবং মেশিন লার্নিংয়ের জন্য ডেটা লেক ব্যবহার করে। ডেটা গ্রাহকরা ডেটার উপর আস্থা হারান যদি এটি সঠিক এবং সাম্প্রতিক না হয়, সর্বোত্তম এবং সঠিক সিদ্ধান্ত নেওয়ার জন্য ডেটা গুণমানকে অপরিহার্য করে তোলে।
তথ্যের নির্ভুলতা এবং সতেজতার মূল্যায়ন ইঞ্জিনিয়ারদের জন্য একটি সাধারণ কাজ। বর্তমানে, ডেটা গুণমান মূল্যায়ন করার জন্য বিভিন্ন সরঞ্জাম উপলব্ধ রয়েছে। যাইহোক, এই সরঞ্জামগুলির জন্য প্রায়শই ডেটা আবিষ্কারের ম্যানুয়াল প্রক্রিয়া এবং ডেটা ইঞ্জিনিয়ারিং এবং কোডিংয়ে দক্ষতার প্রয়োজন হয়।
AWS Glue Data Quality-এর সর্বজনীন প্রিভিউ লঞ্চ ঘোষণা করে আমরা আনন্দিত। আপনি কোনো অতিরিক্ত অ্যাক্সেস অনুরোধ ছাড়াই আজ এই বৈশিষ্ট্য অ্যাক্সেস করতে পারেন উপলব্ধ অঞ্চল. AWS Glue ডেটা কোয়ালিটি হল AWS Glue-এর একটি নতুন প্রিভিউ বৈশিষ্ট্য যা Amazon S3-ভিত্তিক ডেটা লেক এবং AWS Glue ETL চাকরির ডেটা গুণমান পরিমাপ করে এবং নিরীক্ষণ করে। এতে ডেটা ইঞ্জিনিয়ারিং বা কোডিং-এ কোনো দক্ষতার প্রয়োজন নেই। এটি আপনার ডেটার গুণমান পর্যবেক্ষণ এবং মূল্যায়ন করার আপনার অভিজ্ঞতাকে সহজ করে।
এটি AWS গ্লু ডেটা কোয়ালিটি কীভাবে কাজ করে তা ব্যাখ্যা করার জন্য পোস্টগুলির একটি চার-অংশের সিরিজের পার্ট 1। সিরিজের পরবর্তী পোস্টগুলি দেখুন:
এই পোস্টে, আমরা AWS আঠালো ডেটা কোয়ালিটি বৈশিষ্ট্যটি ব্যবহার করার সরলতা নিয়ে যাব:
- ডেটা মানের সুপারিশ শুরু করা হচ্ছে এবং AWS Glue Data Catalog-এ আপনার ডেটার উপর চলে।
- ডেটা মানের ফলাফল একটি নির্দিষ্ট থ্রেশহোল্ডের নিচে থাকলে বিজ্ঞপ্তি পাওয়ার জন্য একটি Amazon CloudWatch অ্যালার্ম তৈরি করা।
- অ্যামাজন এথেনার মাধ্যমে আপনার AWS আঠালো ডেটা গুণমানের ফলাফল বিশ্লেষণ করা হচ্ছে।
AWS CloudFormation এর সাথে সংস্থান সেট আপ করুন
প্রদত্ত CloudFormation স্ক্রিপ্ট আপনার জন্য নিম্নলিখিত সংস্থান তৈরি করে:
- AWS আঠালো ডেটা কোয়ালিটি চালানোর জন্য প্রয়োজনীয় IAM ভূমিকা
- NYC ট্যাক্সি ডেটাসেট সংরক্ষণ করার জন্য একটি অ্যামাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি
- AWS Glue Data Quality রানের ফলাফল সংরক্ষণ এবং বিশ্লেষণ করার জন্য একটি S3 বালতি
- NYC ট্যাক্সি ডেটাসেট থেকে তৈরি একটি AWS Glue ডাটাবেস এবং টেবিল
প্রারম্ভিক ব্যবহারের নির্দেশাবলী:
- AWS CloudFormation কনসোল খুলুন।
- বেছে নিন স্ট্যাক তৈরি করুন এবং তারপর নির্বাচন করুন নতুন সংস্থান সহ (মান).
- জন্য টেমপ্লেট উৎসনির্বাচন একটি টেমপ্লেট ফাইল আপলোড করুন, এবং উপরে সংযুক্ত টেমপ্লেট ফাইল প্রদান করুন। তাহলে বেছে নাও পরবর্তী.
- জন্য স্ট্যাকের নাম, ডেটা কোয়ালিটি ডেটাবেস, এবং ডেটা কোয়ালিটি টেবিল, ডিফল্ট হিসাবে ছেড়ে দিন। জন্য DataQualityS3BucketName, আপনার S3 বালতির নাম লিখুন। তাহলে বেছে নাও পরবর্তী.
- চূড়ান্ত স্ক্রিনে, নিশ্চিত করুন যে এই স্ট্যাকটি আপনার জন্য IAM সংস্থান তৈরি করবে এবং বেছে নিন জমা দিন.
- স্ট্যাকটি সফলভাবে তৈরি হয়ে গেলে, স্ট্যাকের দ্বারা তৈরি S3 বালতিতে নেভিগেট করুন এবং আপলোড করুন yellow_tripdata_2022-01.parquet ফাইল.
AWS আঠালো ডেটা ক্যাটালগে আপনার ডেটাতে চালানো একটি AWS আঠালো ডেটা গুণমান শুরু করুন
এই প্রথম বিভাগে, আমরা AWS Glue Data Quality Service থেকে ডেটা মানের নিয়মের সুপারিশ তৈরি করব। এই সুপারিশগুলি ব্যবহার করে, আমরা তারপরে আমাদের ডেটার বিশ্লেষণ পেতে আমাদের ডেটাসেটের বিরুদ্ধে একটি ডেটা মানের কাজ চালাব।
শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- AWS আঠালো কনসোল খুলুন।
- বেছে নিন টেবিল অধীনে ডেটা ক্যাটালগ.
- নির্বাচন করুন ডেটা কোয়ালিটি টেবিল ক্লাউডফর্মেশন স্ট্যাকের মাধ্যমে তৈরি করা টেবিল।
- নির্বাচন করুন উপাত্ত গুণমান ট্যাব।
- বেছে নিন নিয়মের সুপারিশ করুন.
- উপরে ডেটা গুণমানের নিয়মগুলি সুপারিশ করুন পৃষ্ঠা, চেক একটি নিয়ম সেট হিসাবে প্রস্তাবিত নিয়ম সংরক্ষণ করুন. এটি আমাদের প্রস্তাবিত নিয়মগুলিকে একটি নিয়ম সেটে স্বয়ংক্রিয়ভাবে সংরক্ষণ করার অনুমতি দেবে, পরবর্তী ধাপে ব্যবহারের জন্য।
- জন্য আইএএম ভূমিকা, CloudFormation স্ট্যাক থেকে তৈরি করা IAM ভূমিকাটি বেছে নিন।
- জন্য অতিরিক্ত কনফিগারেশন - ঐচ্ছিক, কর্মীদের ডিফল্ট সংখ্যা এবং সময়সীমা ছেড়ে দিন।
- বেছে নিন নিয়মের সুপারিশ করুন. এটি প্রদত্ত সংখ্যক কর্মী সহ একটি ডেটা গুণমানের সুপারিশ চালানো শুরু করবে।
- নিয়ম সেট সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।
- একবার সম্পন্ন হলে, ফিরে নেভিগেট করুন বিধিমালা ট্যাব আপনি একটি সফল সুপারিশ রান এবং একটি নিয়ম সেট তৈরি দেখতে হবে.
AWS আঠালো ডেটা গুণমানের সুপারিশগুলি বুঝুন
AWS Glue Data Quality Recommendations হল AWS Glue Data Quality Service দ্বারা জেনারেট করা পরামর্শ এবং আপনার ডেটার আকারের উপর ভিত্তি করে। এই সুপারিশগুলি স্বয়ংক্রিয়ভাবে আপনার ডেটার RowCounts, গড়, স্ট্যান্ডার্ড ডেভিয়েশন ইত্যাদির মত দিকগুলিকে বিবেচনায় নেয় এবং একটি সূচনা বিন্দু হিসাবে ব্যবহার করার জন্য নিয়মগুলির একটি সেট তৈরি করে৷
এখানে ব্যবহৃত ডেটাসেটটি ছিল NYC ট্যাক্সি ডেটাসেট৷ এর উপর ভিত্তি করে, এই ডেটাসেটের কলামগুলি এবং সেই কলামগুলির মানগুলি, AWS Glue Data Quality নিয়মের একটি সেট সুপারিশ করে৷ মোট, সুপারিশ পরিষেবা স্বয়ংক্রিয়ভাবে ডেটাসেটের সমস্ত কলাম বিবেচনায় নিয়েছে এবং 55টি নিয়ম সুপারিশ করেছে।
এর মধ্যে কয়েকটি নিয়ম হল:
- “<> এবং <> এর মধ্যে সারির সংখ্যা” → এটি যে ডেটা দেখেছে তার উপর ভিত্তি করে সারির সংখ্যা গণনা আশা করুন
- [ ] তে "VendorID" কলামের মান → "VendorID" কলামটি মানগুলির একটি নির্দিষ্ট সেটের মধ্যে থাকবে বলে আশা করুন
- IsComplete “VendorID” → আশা করুন যে “VendorID” একটি নন-নাল মান হবে
আমি কীভাবে প্রস্তাবিত AWS আঠালো ডেটা গুণমানের নিয়মগুলি ব্যবহার করব?
- থেকে বিধিমালা বিভাগে, আপনি আপনার উত্পন্ন নিয়ম সেট দেখতে হবে. উত্পন্ন নিয়ম নির্বাচন করুন, এবং নির্বাচন করুন নিয়মাবলী মূল্যায়ন করুন.
- আপনি বক্স চেক না হলে একটি নিয়ম সেট হিসাবে প্রস্তাবিত নিয়ম সংরক্ষণ করুন আপনি যখন সুপারিশটি চালান, তখনও আপনি সুপারিশ টাস্ক রানে ক্লিক করতে পারেন এবং একটি নতুন নিয়ম সেট তৈরি করতে নিয়মগুলি অনুলিপি করতে পারেন
- জন্য ডেটা মানের ক্রিয়াকলাপ অধীনে ডেটা মানের বৈশিষ্ট্য, নির্বাচন করুন Amazon CloudWatch-এ মেট্রিক্স প্রকাশ করুন. যদি এই বাক্সটি চেক করা না থাকে, তবে ডেটা গুণমান রান Amazon CloudWatch-এ মেট্রিক্স প্রকাশ করবে না।
- জন্য আইএএম ভূমিকা, নির্বাচন করুন GlueDataQualityBlogRole AWS CloudFormation স্ট্যাকে তৈরি করা হয়েছে।
- জন্য কর্মী সংখ্যা অনুরোধ করা হয়েছে অধীনে উন্নত বৈশিষ্ট্য, ডিফল্ট হিসাবে ছেড়ে দিন।
- জন্য ডেটা মানের ফলাফলের অবস্থান, এর মান নির্বাচন করুন GlueDataQuality ResultsS3Bucket AWS CloudFormation স্ট্যাকের মাধ্যমে তৈরি করা অবস্থান
- বেছে নিন নিয়মাবলী মূল্যায়ন করুন.
- একবার রান শুরু হলে, আপনি রানের অবস্থা দেখতে পারেন ডেটা মানের ফলাফল ট্যাব।
- রান একটি সফল পর্যায়ে পৌঁছানোর পরে, সম্পন্ন করা ডেটা মানের টাস্ক রান নির্বাচন করুন এবং এতে দেখানো ডেটা গুণমানের ফলাফল দেখুন ফলাফল চালান.
আমাদের সুপারিশ পরিষেবা পরামর্শ দিয়েছে যে আমরা কলামের মান এবং আমাদের NYC ট্যাক্সি ডেটাসেটের মধ্যে থাকা ডেটার উপর ভিত্তি করে 55টি নিয়ম প্রয়োগ করি। আমরা তখন 55টি নিয়মের সংগ্রহকে একটি RuleSet এ রূপান্তরিত করেছি। তারপর, আমরা আমাদের ডেটাসেটের বিপরীতে আমাদের RuleSet ব্যবহার করে একটি ডেটা গুণমান মূল্যায়ন টাস্ক চালাই। উপরের আমাদের ফলাফলে, আমরা RuleSet এর মধ্যে প্রতিটির স্থিতি দেখতে পাই।
এছাড়াও আপনি ব্যবহার করতে পারেন AWS Glue Data Quality APIs এই পদক্ষেপগুলি চালাতে।
অ্যামাজন ক্লাউডওয়াচ অ্যালার্মের মাধ্যমে আমার ব্যর্থ ডেটা গুণমানের জন্য অ্যামাজন এসএনএস বিজ্ঞপ্তি পান
ডেটা ক্যাটালগ থেকে চালিত প্রতিটি AWS আঠালো ডেটা গুণমান মূল্যায়ন, নামের একজোড়া মেট্রিক নির্গত করে glue.data.quality.rules.passed (অনেকগুলি নিয়ম যা পাস করেছে তা নির্দেশ করে) এবং glue.data.quality.rules.failed (ব্যর্থ নিয়মের সংখ্যা নির্দেশ করে) প্রতি ডেটা মানের রান। এই নির্গত মেট্রিকটি ব্যবহারকারীদের সতর্ক করার জন্য অ্যালার্ম তৈরি করতে ব্যবহার করা যেতে পারে যদি একটি প্রদত্ত ডেটা গুণমান একটি থ্রেশহোল্ডের নিচে পড়ে।
একটি অ্যালার্ম সেট আপ করার সাথে শুরু করতে যা একটি Amazon SNS বিজ্ঞপ্তির মাধ্যমে একটি ইমেল পাঠাবে, নীচের পদক্ষেপগুলি অনুসরণ করুন:
- Amazon CloudWatch কনসোল খুলুন।
- বেছে নিন সমস্ত মেট্রিক্স অধীনে ছন্দোবিজ্ঞান. আপনি নীচে একটি অতিরিক্ত নামস্থান দেখতে পাবেন কাস্টম নামস্থান খেতাবধারী আঠালো ডেটা গুণমান.
দ্রষ্টব্য: AWS Glue Data Quality রান শুরু করার সময়, নিশ্চিত করুন Amazon CloudWatch-এ মেট্রিক্স প্রকাশ করুন চেকবক্স সক্রিয় করা হয়েছে, নীচে দেখানো হিসাবে। অন্যথায়, সেই নির্দিষ্ট রানের মেট্রিক্স Amazon CloudWatch-এ প্রকাশিত হবে না।
- অধীনে আঠালো ডেটা গুণমান নেমস্পেস, আপনি নিয়ম সেট প্রতি টেবিল প্রতি নির্গত মেট্রিক্স দেখতে সক্ষম হবেন। আমাদের ব্লগের উদ্দেশ্যে, আমরা ব্যবহার করা হবে glue.data.quality.rules.failed নিয়ম এবং অ্যালার্ম, যদি এই মানটি 1-এর উপরে যায় (ইঙ্গিত করে যে, যদি আমরা 1-এর থেকে বেশি কিছু ব্যর্থ নিয়ম মূল্যায়ন দেখি, তাহলে আমরা বিজ্ঞপ্তি পেতে চাই)।
- অ্যালার্ম তৈরি করতে, নির্বাচন করুন সমস্ত অ্যালার্ম অ্যালার্মের অধীনে
- বেছে নিন অ্যালার্ম তৈরি করুন.
- বেছে নিন মেট্রিক নির্বাচন করুন.
- নির্বাচন করুন glue.data.quality.rules.failed মেট্রিক আপনার তৈরি করা টেবিলের সাথে সম্পর্কিত, তারপর নির্বাচন করুন মেট্রিক নির্বাচন করুন.
- অধীনে মেট্রিক এবং শর্তাবলী উল্লেখ করুন ট্যাব, অধীনে ছন্দোবিজ্ঞান অধ্যায়:
- জন্য পরিসংখ্যাত, নির্বাচন করুন সমষ্টি.
- জন্য কাল, নির্বাচন করুন 1 মিনিট.
- অধীনে পরিবেশ অধ্যায়:
- জন্য থ্রেশহোল্ড প্রকারনির্বাচন স্থির.
- জন্য যখনই glue.data.quality.rules.failed হয়…, নির্বাচন করুন বৃহত্তর/সমান.
- জন্য চেয়ে…, থ্রেশহোল্ড মান হিসাবে 1 লিখুন।
- বিস্তৃত করা অতিরিক্ত কনফিগারেশন ড্রপডাউন এবং নির্বাচন করুন অনুপস্থিত ডেটাকে ভাল হিসাবে বিবেচনা করুন
এই নির্বাচনগুলি বোঝায় যে যদি glue.data.quality.rules.failed মেট্রিক এর থেকে বেশি বা সমান একটি মান নির্গত করে 1, আমরা একটি অ্যালার্ম ট্রিগার করব। যাইহোক, যদি কোন তথ্য না থাকে, আমরা এটি গ্রহণযোগ্য হিসাবে বিবেচনা করব।
- বেছে নিন পরবর্তী.
- On কর্ম কনফিগার করুন:
- জন্য অ্যালার্ম স্টেট ট্রিগার অধ্যায়, নির্বাচন করুন এলার্মে .
- জন্য নিম্নলিখিত SNS বিষয়ে একটি বিজ্ঞপ্তি পাঠাননির্বাচন একটি নতুন বিষয় তৈরি করুন একটি নতুন SNS বিষয়ের মাধ্যমে একটি বিজ্ঞপ্তি পাঠাতে।
- জন্য ইমেল শেষ পয়েন্ট যে বিজ্ঞপ্তি পাবেন..., তোমার ই - মেইল ঠিকানা লেখো. পছন্দ করা পরবর্তী.
- জন্য অ্যালার্মের নাম, myFirstDQAlarm লিখুন, তারপর নির্বাচন করুন পরবর্তী.
- পরিশেষে, আপনি সব নির্বাচনের একটি সারাংশ দেখতে হবে পূর্বরূপ এবং তৈরি করুন পর্দা পছন্দ করা অ্যালার্ম তৈরি করুন নিচে.
- আপনি এখন অ্যামাজন ক্লাউডওয়াচ অ্যালার্ম ড্যাশবোর্ড থেকে অ্যালার্ম তৈরি করা দেখতে সক্ষম হবেন।
এডব্লিউএস গ্লু ডেটা কোয়ালিটি অ্যালার্ম প্রদর্শনের জন্য, আমরা একটি বাস্তব-বিশ্বের দৃশ্যে যেতে চলেছি যেখানে আমরা দূষিত ডেটা গ্রহণ করছি, এবং কীভাবে আমরা এলার্ম ব্যবহার করে এটির বিজ্ঞপ্তি পেতে AWS গ্লু ডেটা কোয়ালিটি পরিষেবা ব্যবহার করতে পারি। পূর্ববর্তী ধাপে তৈরি করা হয়েছে। এই উদ্দেশ্যে, আমরা প্রদত্ত ফাইল ব্যবহার করব malformed_yellow_taxi.parquet উদ্দেশ্যমূলকভাবে টুইক করা হয়েছে এমন ডেটা রয়েছে।
- S3 অবস্থানে নেভিগেট করুন DataQualityS3BucketName ব্লগ পোস্টের শুরুতে সরবরাহ করা CloudFormation টেমপ্লেটে উল্লেখ করা হয়েছে।
- আপলোড করুন malformed_yellow_tripdata.parquet এই অবস্থানে ফাইল করুন। এটি আমাদের এমন একটি প্রবাহকে অনুকরণ করতে সাহায্য করবে যেখানে আমাদের ETL প্রক্রিয়াগুলির মাধ্যমে আমাদের ডেটা লেকে আসা খারাপ ডেটা গুণমানের একটি ফাইল রয়েছে৷
- AWS গ্লু ডেটা ক্যাটালগ কনসোলে নেভিগেট করুন, প্রদত্ত AWS CloudFormation টেমপ্লেটের মাধ্যমে তৈরি করা demo_nyc_taxi_data_input নির্বাচন করুন এবং তারপরে নেভিগেট করুন উপাত্ত গুণমান ট্যাব।
- আমরা প্রথম বিভাগে তৈরি করা RuleSet নির্বাচন করুন। তারপর সিলেক্ট করুন নিয়মাবলী মূল্যায়ন করুন.
- থেকে ডেটা গুণমান স্ক্রীন মূল্যায়ন করুন:
- বক্সটি চেক করুন Amazon CloudWatch-এ মেট্রিক্স প্রকাশ করুন। অ্যামাজন ক্লাউডওয়াচ-এ ব্যর্থতার পরিমাপ নির্গত হয়েছে তা নিশ্চিত করতে এই চেকবক্সের প্রয়োজন।
- AWS CloudFormation টেমপ্লেটের মাধ্যমে তৈরি IAM ভূমিকা নির্বাচন করুন।
- ঐচ্ছিকভাবে, আপনার AWS আঠালো ডেটা গুণমানের ফলাফল প্রকাশ করতে একটি S3 অবস্থান নির্বাচন করুন।
- নির্বাচন করা নিয়মাবলী মূল্যায়ন করুন।
- নেভিগেট করুন ডেটা গুণমানের ফলাফল ট্যাব আপনার এখন দুটি রান দেখতে হবে, একটি এই ব্লগের আগের ধাপ থেকে এবং একটি যা আমরা বর্তমানে ট্রিগার করেছি। বর্তমান রান সম্পূর্ণ হওয়ার জন্য অপেক্ষা করুন।
- যেমন আপনি দেখতে পাচ্ছেন, আমাদের একটি ব্যর্থ AWS Glue Data Quality run ফলাফল আছে, আমাদের আসল 52 টি নিয়মের মধ্যে মাত্র 55 টি পাস হয়েছে। এই ব্যর্থতাগুলি আমরা S3 এ আপলোড করা নতুন ফাইলের জন্য দায়ী।
- Amazon CloudWatch কনসোলে নেভিগেট করুন এবং এই বিভাগের শুরুতে আমরা যে অ্যালার্ম তৈরি করেছি সেটি নির্বাচন করুন।
- আপনি দেখতে পাচ্ছেন, আমরা প্রতিবার ফায়ার করার জন্য অ্যালার্মটি কনফিগার করেছি glue.data.quality.rules.failed মেট্রিক 1-এর থ্রেশহোল্ড অতিক্রম করে। উপরের AWS Glue Data Quality রান করার পর, আমরা 3টি নিয়ম ব্যর্থ হতে দেখি, যা অ্যালার্মকে ট্রিগার করেছে। আরও, আপনারও অ্যালার্মের ফায়ারিংয়ের বিবরণ দিয়ে একটি ইমেল পাওয়া উচিত ছিল।
আমরা এইভাবে একটি উদাহরণ প্রদর্শন করেছি যেখানে ইনকামিং বিকৃত ডেটা, আমাদের ডেটা লেকে আসা AWS আঠালো ডেটা গুণমান নিয়মের মাধ্যমে সনাক্ত করা যেতে পারে এবং পরবর্তী সতর্কতা প্রক্রিয়া উপযুক্ত ব্যক্তিদের অবহিত করার জন্য তৈরি করা যেতে পারে।
Amazon Athena-এর মাধ্যমে আপনার AWS Glue Data Quality রানের ফলাফল বিশ্লেষণ করুন
এমন পরিস্থিতিতে যেখানে আপনার কাছে একটি ডেটাসেটের বিরুদ্ধে একাধিক AWS আঠালো ডেটা কোয়ালিটির ফলাফল রয়েছে, নির্দিষ্ট সময়ের মধ্যে, আপনি একটি নির্দিষ্ট সময়ের মধ্যে ডেটাসেটের গুণমানের প্রবণতা ট্র্যাক করতে চাইতে পারেন। এটি অর্জনের জন্য, আমরা আমাদের AWS Glue Data Quality রানের ফলাফল S3 এ রপ্তানি করতে পারি এবং রপ্তানিকৃত রানের বিপরীতে বিশ্লেষণাত্মক প্রশ্নগুলি চালানোর জন্য Amazon Athena ব্যবহার করতে পারি। আপনার ডেটা গুণমানের প্রবণতাগুলির একটি গ্রাফিকাল উপস্থাপনা করার জন্য ড্যাশবোর্ড তৈরি করতে ফলাফলগুলি আরও অ্যামাজন কুইকসাইট-এ ব্যবহার করা যেতে পারে
এই পোস্টের তৃতীয় অংশে, আমরা আপনার ডেটাসেটের মানের ডেটা ট্র্যাক করা শুরু করার জন্য প্রয়োজনীয় পদক্ষেপগুলি দেখতে পাব:
- আমাদের ডেটা গুণমানের জন্য যা আমরা পূর্ববর্তী বিভাগে সেট করেছি, আমরা সেট করি ডেটা মানের ফলাফলের অবস্থান AWS CloudFormation স্ট্যাক দ্বারা নির্দিষ্ট করা বালতি অবস্থানের পরামিতি।
- প্রতিটি সফল রানের পরে, আপনি একটি একক JSONL ফাইল আপনার নির্বাচিত S3 অবস্থানে রপ্তানি হচ্ছে দেখতে হবে, সেই নির্দিষ্ট রানের সাথে সম্পর্কিত।
- Amazon Athena কনসোল খুলুন।
- ক্যোয়ারী এডিটরে, নিচের CREATE TABLE স্টেটমেন্টটি চালান (প্রতিস্থাপন করুন একটি প্রাসঙ্গিক মান সহ, এবং সঙ্গে বিভাগ
GlueDataQualityResultsS3Bucket
প্রদত্ত AWS ক্লাউডফর্মেশন টেমপ্লেট থেকে মান: - একবার উপরের টেবিলটি তৈরি হয়ে গেলে, আপনি আপনার ডেটা গুণমানের ফলাফল বিশ্লেষণ করতে প্রশ্নগুলি চালাতে সক্ষম হবেন।
উদাহরণস্বরূপ, নিম্নলিখিত প্রশ্নটি বিবেচনা করুন যা আমাকে দেখায় যে AWS আঠালো ডেটা গুণমান আমার টেবিলের বিপরীতে চলে demo_nyc_taxi_data_input
একটি সময় উইন্ডোর মধ্যে:
উপরের ক্যোয়ারীটির আউটপুট আমাকে “আউটকাম” = 'ফেলড' সহ সমস্ত রানের বিশদ বিবরণ দেখায় যা আমার NYC ট্যাক্সি ডেটাসেট টেবিলের বিপরীতে চলেছিল ( “tablename” = 'demo_nyc_taxi_data_input')। আউটপুট আমাকে ব্যর্থতার কারণ সম্পর্কে তথ্য দেয় ( failurereason
) এবং যে মানগুলির বিরুদ্ধে এটি মূল্যায়ন করা হয়েছিল ( evaluatedmetrics
).
আপনি দেখতে পাচ্ছেন, আমরা S3 এ আপলোড করা রানের ফলাফলের মাধ্যমে আমাদের AWS Glue Data Quality রান সম্পর্কে বিস্তারিত তথ্য পেতে পারি, আরও বিস্তারিত বিশ্লেষণ করতে পারি এবং ডেটার উপরে ড্যাশবোর্ড তৈরি করতে পারি।
পরিষ্কার কর
- Amazon Athena কনসোলে নেভিগেট করুন এবং ডেটা গুণমান বিশ্লেষণের জন্য তৈরি টেবিলটি মুছুন।
- Amazon CloudWatch কনসোলে নেভিগেট করুন এবং তৈরি করা অ্যালার্মগুলি মুছুন৷
- আপনি যদি নমুনা ক্লাউডফরমেশন স্ট্যাক স্থাপন করেন, তাহলে AWS CloudFormation কনসোলের মাধ্যমে CloudFormation স্ট্যাকটি মুছুন। তোমার দরকার হবে S3 বালতি খালি করুন আপনি বালতি মুছে ফেলার আগে।
- আপনি যদি আপনার AWS Glue Data Quality চালু করে থাকেন তাহলে S3 তে আউটপুট চলে, সেই বালতিগুলিও খালি করুন।
উপসংহার
এই পোস্টে, আমরা আপনার AWS গ্লু ডেটা ক্যাটালগ টেবিলে AWS Glue Data Quality বৈশিষ্ট্য ব্যবহার করে ডেটা গুণমানের নিয়মগুলি অন্তর্ভুক্ত করার সহজতা এবং গতি সম্পর্কে কথা বলেছি। আমরা কীভাবে সুপারিশগুলি চালাতে হয় এবং আপনার টেবিলের বিপরীতে ডেটার গুণমান মূল্যায়ন করতে হয় সে সম্পর্কেও কথা বলেছি। আমরা তখন Amazon Athena-এর মাধ্যমে ডেটা মানের ফলাফল বিশ্লেষণ এবং ব্যর্থ ডেটা মানের ব্যবহারকারীদের অবহিত করার জন্য Amazon CloudWatch-এর মাধ্যমে অ্যালার্ম সেট আপ করার প্রক্রিয়া নিয়ে আলোচনা করেছি।
AWS Glue Data Quality APIs-এ ডুব দিতে, দেখুন AWS Glue Data Quality API ডকুমেন্টেশন
AWS আঠালো ডেটা গুণমান সম্পর্কে আরও জানতে, দেখুন AWS আঠালো ডেটা গুণমান বিকাশকারী গাইড
লেখক সম্পর্কে
অনিকেত জিদ্দিগৌদার AWS Glue দলের একজন বিগ ডেটা আর্কিটেক্ট।
জোসেফ বারলান AWS Glue-এ একজন ফ্রন্টেন্ড ইঞ্জিনিয়ার। দলগুলিকে পুনরায় ব্যবহারযোগ্য UI উপাদানগুলি তৈরি করতে সহায়তা করার জন্য তার 5 বছরেরও বেশি অভিজ্ঞতা রয়েছে এবং তিনি ফ্রন্টএন্ড ডিজাইন সিস্টেম সম্পর্কে উত্সাহী৷ তার অবসর সময়ে, তিনি পেন্সিল অঙ্কন এবং টিভি শো দেখতে উপভোগ করেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/getting-started-with-aws-glue-data-quality-from-the-aws-glue-data-catalog/
- 000
- 1
- 10
- 100
- 11
- 420
- a
- সক্ষম
- সম্পর্কে
- উপরে
- গ্রহণযোগ্য
- প্রবেশ
- হিসাব
- সঠিকতা
- সঠিক
- অর্জন করা
- স্বীকার করা
- দিয়ে
- স্টক
- অতিরিক্ত
- ঠিকানা
- অগ্রসর
- পর
- বিরুদ্ধে
- বিপদাশঙ্কা
- সতর্ক
- সব
- মর্দানী স্ত্রীলোক
- অ্যামাজন অ্যাথেনা
- অ্যামাজন কুইকসাইট
- বিশ্লেষণ
- বিশ্লেষণাত্মক
- বৈশ্লেষিক ন্যায়
- বিশ্লেষণ করা
- বিশ্লেষণ
- এবং
- ঘোষণা করা
- এ্যাপাচি
- API
- API গুলি
- আবেদন
- অ্যাপ্লিকেশন ডেভেলপমেন্ট
- যথাযথ
- আ
- সম্পদ
- স্বয়ংক্রিয়ভাবে
- সহজলভ্য
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস আঠালো
- পিছনে
- ভিত্তি
- আগে
- শুরু
- হচ্ছে
- নিচে
- মধ্যে
- বিশাল
- বড় ডেটা
- ব্লগ
- পাদ
- বক্স
- নির্মাণ করা
- ব্যবসায়
- বহন
- তালিকা
- কিছু
- চেক
- বেছে নিন
- শ্রেণীবিন্যাস
- কোডিং
- সংগ্রহ
- স্তম্ভ
- কলাম
- মেশা
- আসছে
- সাধারণ
- সম্পূর্ণ
- সম্পন্ন হয়েছে
- উপাদান
- পরিবেশ
- বিবেচনা
- বিবেচনা
- কনসোল
- কনজিউমার্স
- ধারণ
- ধর্মান্তরিত
- অনুরূপ
- দূষিত
- পারা
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- বর্তমান
- এখন
- গ্রাহকদের
- ড্যাশবোর্ড
- উপাত্ত
- তথ্য চালিত
- ডেটাবেস
- সিদ্ধান্ত
- ডিফল্ট
- প্রদর্শন
- প্রদর্শিত
- মোতায়েন
- নকশা
- ডিজাইন সিস্টেম
- বিশদ
- বিস্তারিত
- বিকাশকারী
- উন্নয়ন
- চ্যুতি
- আবিষ্কার করা
- আবিষ্কার
- আলোচনা
- অঙ্কন
- প্রতি
- সম্পাদক
- ইমেইল
- প্রকৌশলী
- প্রকৌশল
- প্রকৌশলী
- নিশ্চিত করা
- প্রবেশ করান
- অপরিহার্য
- ইত্যাদি
- থার (eth)
- মূল্যায়ন
- মূল্যায়ন
- মূল্যায়ন
- মূল্যায়ন
- উদাহরণ
- আশা করা
- অভিজ্ঞতা
- ল্যাপারোস্কোপিক পদ্ধতি
- ব্যাখ্যা করা
- রপ্তানি
- বহিরাগত
- নির্যাস
- ব্যর্থ
- ব্যর্থতা
- ঝরনা
- বৈশিষ্ট্য
- ফাইল
- চূড়ান্ত
- আগুন
- অগ্নিসংযোগ
- প্রথম
- প্রবাহ
- অনুসরণ করা
- অনুসরণ
- বিন্যাস
- থেকে
- সামনের অংশ
- অধিকতর
- উত্পাদন করা
- উত্পন্ন
- পাওয়া
- পেয়ে
- প্রদত্ত
- দেয়
- Go
- Goes
- চালু
- বৃহত্তর
- সাহায্য
- সাহায্য
- এখানে
- মধুচক্র
- কিভাবে
- কিভাবে
- যাহোক
- এইচটিএমএল
- HTTPS দ্বারা
- চিহ্নিত
- in
- ইনকামিং
- একত্রিত
- তথ্য
- ইন্টিগ্রেশন
- IT
- জবস
- JSON
- শুরু করা
- শিখতে
- শিক্ষা
- ত্যাগ
- বোঝা
- অবস্থান
- দেখুন
- হারান
- মেশিন
- মেশিন লার্নিং
- করা
- তৈরি করে
- মেকিং
- ম্যানুয়াল
- পরিমাপ
- ছন্দোময়
- ছন্দোবিজ্ঞান
- হতে পারে
- অনুপস্থিত
- ML
- মনিটর
- পর্যবেক্ষণ
- মনিটর
- অধিক
- বহু
- নাম
- নেভিগেট করুন
- প্রয়োজন
- নতুন
- পরবর্তী
- প্রজ্ঞাপন
- বিজ্ঞপ্তি
- সংখ্যা
- এনওয়াইসি
- ONE
- অনুকূল
- ক্রম
- মূল
- অন্যভাবে
- স্থিতিমাপ
- অংশ
- বিশেষ
- গৃহীত
- পাসিং
- কামুক
- সম্পাদন করা
- কাল
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- খুশি
- বিন্দু
- দরিদ্র
- পোস্ট
- পোস্ট
- প্রস্তুত করা
- প্রি
- আগে
- প্রক্রিয়া
- প্রসেস
- প্রদান
- প্রদত্ত
- প্রকাশ্য
- প্রকাশ করা
- প্রকাশিত
- উদ্দেশ্য
- গুণ
- ছুঁয়েছে
- বাস্তব জগতে
- কারণ
- গ্রহণ করা
- সাম্প্রতিক
- সুপারিশ
- সুপারিশ
- সুপারিশ করা
- বিশেষ পরামর্শ দেওয়া হচ্ছে
- প্রাসঙ্গিক
- মেরামত
- প্রতিস্থাপন করা
- প্রতিনিধিত্ব
- প্রয়োজন
- প্রয়োজনীয়
- Resources
- ফল
- ফলাফল
- পুনর্ব্যবহারযোগ্য
- ভূমিকা
- সারিটি
- নিয়ম
- নিয়ম
- চালান
- সংরক্ষণ করুন
- পরিস্থিতিতে
- স্ক্রিন
- অধ্যায়
- বিভাগে
- নির্বাচিত
- ক্রম
- Serverless
- সেবা
- সেট
- বিন্যাস
- আকৃতি
- উচিত
- প্রদর্শিত
- শো
- সহজ
- সরলতা
- একক
- নির্দিষ্ট
- নিদিষ্ট
- স্পীড
- গাদা
- পর্যায়
- মান
- শুরু
- শুরু
- শুরু হচ্ছে
- রাষ্ট্র
- বিবৃতি
- অবস্থা
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- এখনো
- স্টোরেজ
- দোকান
- সঞ্চিত
- দোকান
- পরবর্তী
- সফল
- সফলভাবে
- সংক্ষিপ্তসার
- সরবরাহকৃত
- সিস্টেম
- টেবিল
- গ্রহণ করা
- কার্য
- টীম
- দল
- টেমপ্লেট
- সার্জারির
- তৃতীয়
- হাজার হাজার
- গোবরাট
- দ্বারা
- সময়
- টাইমস্ট্যাম্প
- থেকে
- আজ
- সরঞ্জাম
- শীর্ষ
- বিষয়
- মোট
- পথ
- অনুসরণকরণ
- রুপান্তর
- আচরণ করা
- প্রবণতা
- ট্রিগার
- আলোড়ন সৃষ্টি
- আস্থা
- tv
- ui
- অধীনে
- আপলোড করা
- us
- ব্যবহার
- ব্যবহারকারী
- সদ্ব্যবহার করা
- মূল্য
- মানগুলি
- বিভিন্ন
- মাধ্যমে
- চেক
- অপেক্ষা করুন
- পর্যবেক্ষক
- যে
- ইচ্ছা
- মধ্যে
- ছাড়া
- শ্রমিকদের
- কাজ
- would
- বছর
- আপনার
- zephyrnet