সিদ্ধান্ত গ্রহণ, রিপোর্টিং এবং মেশিন লার্নিং (ML) এর মতো প্রক্রিয়াগুলি চালানোর জন্য ব্যবসাগুলি প্রতিদিন আরও বেশি ডেটা সংগ্রহ করে৷ আপনার ডেটা পরিষ্কার এবং রূপান্তর করার আগে, আপনাকে এটি ব্যবহারের জন্য উপযুক্ত কিনা তা নির্ধারণ করতে হবে। ভুল, অনুপস্থিত, বা বিকৃত তথ্য ডাউনস্ট্রিম বিশ্লেষণ এবং ML প্রক্রিয়াগুলিতে বড় প্রভাব ফেলতে পারে। ডেটা গুণমান পরীক্ষা করা আপনার কর্মপ্রবাহের আগে সমস্যাগুলি সনাক্ত করতে সহায়তা করে যাতে আপনি সেগুলি দ্রুত সমাধান করতে পারেন। উপরন্তু, একটি ইভেন্ট-ভিত্তিক আর্কিটেকচার ব্যবহার করে এই চেকগুলি করা আপনাকে ম্যানুয়াল টাচপয়েন্ট কমাতে এবং ক্রমবর্ধমান পরিমাণে ডেটা সহ স্কেল করতে সহায়তা করে।
AWS আঠালো ডেটাব্রু একটি ভিজ্যুয়াল ডেটা প্রস্তুতির টুল যা আপনার ডেটাতে ডুপ্লিকেট মান, অনুপস্থিত মান এবং আউটলায়ারের মতো ডেটা গুণমানের পরিসংখ্যান খুঁজে পাওয়া সহজ করে তোলে। আপনি আপনার অনন্য ব্যবসার প্রয়োজনের উপর ভিত্তি করে শর্তসাপেক্ষ চেক সম্পাদন করতে DataBrew-এ ডেটা গুণমানের নিয়মও সেট আপ করতে পারেন। উদাহরণস্বরূপ, একটি প্রস্তুতকারকের নিশ্চিত করতে হতে পারে যে বিশেষভাবে a-তে কোনো ডুপ্লিকেট মান নেই Part ID
কলাম, বা একজন স্বাস্থ্যসেবা প্রদানকারী একটিতে সেই মানগুলি পরীক্ষা করতে পারে SSN
কলাম একটি নির্দিষ্ট দৈর্ঘ্য। আপনি DataBrew এর সাথে এই নিয়মগুলি তৈরি এবং যাচাই করার পরে, আপনি ব্যবহার করতে পারেন অ্যামাজন ইভেন্টব্রিজ, এডাব্লুএস স্টেপ ফাংশন, এডাব্লুএস ল্যাম্বদা, এবং অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা (Amazon SNS) একটি স্বয়ংক্রিয় ওয়ার্কফ্লো তৈরি করতে এবং একটি নিয়ম যাচাইকরণে ব্যর্থ হলে একটি বিজ্ঞপ্তি পাঠাতে।
এই পোস্টে, আমরা আপনাকে এন্ড-টু-এন্ড ওয়ার্কফ্লো এবং কীভাবে এই সমাধানটি বাস্তবায়ন করতে হয় তার মধ্য দিয়ে চলেছি। এই পোস্ট একটি ধাপে ধাপে টিউটোরিয়াল অন্তর্ভুক্ত, একটি এডাব্লুএস সার্ভারলেস অ্যাপ্লিকেশন মডেল (AWS SAM) টেমপ্লেট, এবং উদাহরণ কোড যা আপনি আপনার নিজস্ব AWS পরিবেশে অ্যাপ্লিকেশন স্থাপন করতে ব্যবহার করতে পারেন।
সমাধান ওভারভিউ
এই পোস্টে সমাধান একত্রিত হয় serverless AWS পরিষেবাগুলি ডেটার গুণমান যাচাইয়ের জন্য সম্পূর্ণ স্বয়ংক্রিয়, এন্ড-টু-এন্ড ইভেন্ট-চালিত পাইপলাইন তৈরি করতে। নিম্নলিখিত চিত্রটি আমাদের সমাধানের স্থাপত্যকে চিত্রিত করে।
সমাধান কর্মপ্রবাহে নিম্নলিখিত পদক্ষেপগুলি রয়েছে:
- আপনি যখন আপনার নতুন ডেটা আপলোড করুন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) বালতি, ইভেন্ট ইভেন্টব্রিজে পাঠানো হয়।
- একটি ইভেন্টব্রিজ নিয়ম একটি স্টেপ ফাংশন স্টেট মেশিন চালানোর জন্য ট্রিগার করে।
- স্টেট মেশিন একটি DataBrew প্রোফাইল কাজ শুরু করে, একটি ডেটা মানের নিয়ম সেট এবং নিয়মগুলির সাথে কনফিগার করা হয়। আপনি যদি একটি অনুরূপ সমাধান তৈরি করার কথা বিবেচনা করছেন, DataBrew প্রোফাইল কাজের আউটপুট অবস্থান এবং উৎস ডেটা S3 বাকেট অনন্য হওয়া উচিত। এটি পুনরাবৃত্ত কাজের রান প্রতিরোধ করে। আমরা একটি সঙ্গে আমাদের সম্পদ স্থাপন এডাব্লুএস ক্লাউডফর্মেশন টেমপ্লেট, যা অনন্য S3 বালতি তৈরি করে।
- একটি Lambda ফাংশন Amazon S3 থেকে ডেটা মানের ফলাফল পড়ে, এবং রাষ্ট্রীয় মেশিনে একটি বুলিয়ান প্রতিক্রিয়া প্রদান করে। ফাংশন রিটার্ন
false
রুলসেটের এক বা একাধিক নিয়ম ব্যর্থ হলে এবং ফিরে আসেtrue
যদি সমস্ত নিয়ম সফল হয়। - যদি বুলিয়ান প্রতিক্রিয়া হয়
false
, স্টেট মেশিন অ্যামাজন এসএনএস-এর সাথে একটি ইমেল বিজ্ঞপ্তি পাঠায় এবং স্টেট মেশিনটি এ শেষ হয়failed
অবস্থা যদি বুলিয়ান প্রতিক্রিয়া হয়true
, রাষ্ট্র যন্ত্র একটি শেষ হয়succeed
অবস্থা আপনি সাফল্য বা ব্যর্থতার উপর অন্যান্য কাজ চালানোর জন্য এই ধাপে সমাধান প্রসারিত করতে পারেন। উদাহরণস্বরূপ, যদি সমস্ত নিয়ম সফল হয়, আপনি DataBrew-এ অন্য রূপান্তর কাজ ট্রিগার করতে একটি ইভেন্টব্রিজ বার্তা পাঠাতে পারেন।
এই পোস্টে, আপনি ইভেন্ট-চালিত ডেটা গুণমান যাচাইকরণ সমাধানের একটি সম্পূর্ণ কার্যকরী ডেমো স্থাপন করতে AWS CloudFormation ব্যবহার করেন। আপনি Amazon S3-তে একটি বৈধ কমা-স্যাপারেটেড ভ্যালু (CSV) ফাইল আপলোড করে সমাধানটি পরীক্ষা করেন, তারপরে একটি অবৈধ CSV ফাইল।
নিম্নরূপ পদক্ষেপ:
- সমাধান সংস্থান স্থাপন করতে একটি ক্লাউডফর্মেশন স্ট্যাক চালু করুন।
- সমাধান পরীক্ষা করুন:
- Amazon S3 এ একটি বৈধ CSV ফাইল আপলোড করুন এবং ডেটা গুণমান যাচাই এবং স্টেপ ফাংশন স্টেট মেশিন সফল হওয়া পর্যবেক্ষণ করুন।
- Amazon S3 এ একটি অবৈধ CSV ফাইল আপলোড করুন এবং ডেটা গুণমান যাচাইকরণ এবং স্টেপ ফাংশন স্টেট মেশিন ব্যর্থতা পর্যবেক্ষণ করুন এবং Amazon SNS থেকে একটি ইমেল বিজ্ঞপ্তি পান।
সমস্ত নমুনা কোড পাওয়া যাবে GitHub সংগ্রহস্থল.
পূর্বশর্ত
এই ওয়াকথ্রুটির জন্য, আপনার নিম্নলিখিত পূর্বশর্তগুলি থাকা উচিত:
AWS CloudFormation ব্যবহার করে সমাধান সংস্থান স্থাপন করুন
ইভেন্ট-চালিত ডেটা গুণমান যাচাইকরণ সমাধানের জন্য প্রয়োজনীয় সংস্থানগুলি স্থাপন করতে আপনি একটি CloudFormation স্ট্যাক ব্যবহার করেন। স্ট্যাকটিতে ডেটাব্রুতে একটি উদাহরণ ডেটাসেট এবং রুলসেট অন্তর্ভুক্ত রয়েছে।
- আপনার AWS অ্যাকাউন্টে সাইন ইন করুন এবং তারপর নির্বাচন করুন স্ট্যাক চালু করুন:
- উপরে দ্রুত স্ট্যাক তৈরি করুন পৃষ্ঠা, জন্য ইমেইল ঠিকানা, Amazon SNS ইমেল বিজ্ঞপ্তিগুলির জন্য একটি বৈধ ইমেল ঠিকানা লিখুন৷
- ডিফল্টে সেট করা অবশিষ্ট বিকল্পগুলি ছেড়ে দিন।
- স্বীকৃতি চেক বক্স নির্বাচন করুন.
- বেছে নিন স্ট্যাক তৈরি করুন।
CloudFormation স্ট্যাক পৌঁছাতে প্রায় 5 মিনিট সময় নেয় CREATE_COMPLETE
অবস্থা।
- আপনার দেওয়া ইমেল ঠিকানার ইনবক্স চেক করুন এবং SNS সদস্যতা গ্রহণ করুন।
ওয়াকথ্রু শেষে ইমেল বিজ্ঞপ্তি বৈশিষ্ট্য প্রদর্শন করার জন্য আপনাকে সদস্যতা নিশ্চিতকরণ পর্যালোচনা এবং গ্রহণ করতে হবে।
উপরে আউটপুট স্ট্যাকের ট্যাবে, আপনি টেমপ্লেট তৈরি করা ডেটাব্রু এবং স্টেপ ফাংশন সংস্থানগুলি ব্রাউজ করার জন্য URLগুলি খুঁজে পেতে পারেন। এছাড়াও আপনি পরবর্তী ধাপে যে AWS CLI কমান্ডগুলি ব্যবহার করেন তাও নোট করুন।
আপনি যদি নির্বাচন করুন AWSGlueDataBrewRuleset
মান লিঙ্ক, আপনি নিম্নলিখিত স্ক্রিনশট হিসাবে, নিয়ম সেট বিবরণ পৃষ্ঠা দেখতে হবে. এই ওয়াকথ্রুতে, আমরা তিনটি নিয়ম সহ একটি ডেটা মানের নিয়ম সেট তৈরি করি যা অনুপস্থিত মান, আউটলায়ার এবং স্ট্রিং দৈর্ঘ্য পরীক্ষা করে।
সমাধান পরীক্ষা করুন
নিম্নলিখিত ধাপে, আপনি ইভেন্ট-চালিত ডেটা গুণমান যাচাইকরণ সমাধান পরীক্ষা করতে CSV ফাইলের সঠিক এবং ভুল সংস্করণ আপলোড করতে AWS CLI ব্যবহার করেন।
- একটি টার্মিনাল বা কমান্ড লাইন প্রম্পট খুলুন এবং নমুনা ডেটা ডাউনলোড করতে AWS CLI ব্যবহার করুন। কী নামের সাথে CloudFormation স্ট্যাক আউটপুট থেকে কমান্ডটি ব্যবহার করুন
CommandToDownloadTestData
: - আপনার S3 বালতিতে অপরিবর্তিত CSV ফাইল আপলোড করতে আবার AWS CLI ব্যবহার করুন। স্ট্রিং প্রতিস্থাপন আপনার বালতি নামের সাথে, অথবা ক্লাউডফর্মেশন টেমপ্লেট আউটপুট থেকে আপনাকে দেওয়া কমান্ডটি অনুলিপি করুন এবং আটকান:
- স্টেপ ফাংশন কনসোলে, ক্লাউডফর্মেশন টেমপ্লেট দ্বারা তৈরি স্টেট মেশিনটি সনাক্ত করুন।
আপনি আগে উল্লিখিত CloudFormation আউটপুটগুলিতে একটি URL খুঁজে পেতে পারেন।
- উপরে ফাঁসি ট্যাব, আপনি রাষ্ট্র মেশিনের একটি নতুন রান দেখতে হবে.
- স্টেট মেশিন গ্রাফ দেখতে এবং এর অগ্রগতি নিরীক্ষণ করতে রানের URL নির্বাচন করুন।
নিম্নলিখিত চিত্রটি আমাদের রাষ্ট্রীয় মেশিনের কার্যপ্রবাহ দেখায়।
একটি ডেটা গুণমানের নিয়মের ব্যর্থতা প্রদর্শন করতে, আপনি কমপক্ষে একটি সম্পাদনা করুন votes.csv
ফাইল.
- আপনার পছন্দের টেক্সট এডিটর বা স্প্রেডশীট টুলে ফাইলটি খুলুন এবং শুধুমাত্র একটি কক্ষ মুছুন।
নিম্নলিখিত স্ক্রিনশটগুলিতে, আমি লিনাক্সে GNU ন্যানো সম্পাদক ব্যবহার করি। আপনি একটি সেল মুছে ফেলার জন্য একটি স্প্রেডশীট সম্পাদক ব্যবহার করতে পারেন। এর ফলে "অনুপস্থিত মানগুলির জন্য সমস্ত কলাম পরীক্ষা করুন" নিয়মটি ব্যর্থ হয়৷
নিম্নলিখিত স্ক্রিনশটটি পরিবর্তন করার আগে CSV ফাইলটি দেখায়।
নিম্নলিখিত স্ক্রিনশট পরিবর্তিত CSV ফাইল দেখায়।
- সম্পাদিত সংরক্ষণ করুন
votes.csv
ফাইল করুন এবং আপনার কমান্ড প্রম্পট বা টার্মিনালে ফিরে যান। - আপনার S3 বালতিতে ফাইলটি আরও একবার আপলোড করতে AWS CLI ব্যবহার করুন৷ আপনি আগের মত একই কমান্ড ব্যবহার করুন:
- স্টেপ ফাংশন কনসোলে, এটি নিরীক্ষণ করতে সর্বশেষ স্টেট মেশিনে নেভিগেট করুন।
ডেটা মানের বৈধতা ব্যর্থ হয়, একটি SNS ইমেল বিজ্ঞপ্তি ট্রিগার করে এবং সামগ্রিক রাষ্ট্রীয় মেশিনের রানের ব্যর্থতা।
নিম্নলিখিত চিত্রটি ব্যর্থ রাষ্ট্র মেশিনের কর্মপ্রবাহ দেখায়।
নিম্নলিখিত স্ক্রিনশটটি SNS ইমেলের একটি উদাহরণ দেখায়।
- আপনি DataBrew কনসোলে নিয়ম ব্যর্থতাটি নির্বাচন করে তদন্ত করতে পারেন
AWSGlueDataBrewProfileResults
CloudFormation স্ট্যাক আউটপুট মধ্যে মান.
পরিষ্কার কর
ভবিষ্যতের চার্জ এড়াতে, সংস্থানগুলি মুছুন। AWS CloudFormation কনসোলে, নামের স্ট্যাকটি মুছুন AWSBigDataBlogDataBrewDQSample
.
উপসংহার
এই পোস্টে, আপনি শিখেছেন কীভাবে স্বয়ংক্রিয়, ইভেন্ট-চালিত ডেটা গুণমান যাচাইকরণ পাইপলাইন তৈরি করতে হয়। DataBrew-এর মাধ্যমে, আপনি আপনার ব্যবসা এবং প্রযুক্তিগত প্রয়োজনীয়তার জন্য ডেটা গুণমানের নিয়ম, থ্রেশহোল্ড এবং নিয়ম সেটগুলি সংজ্ঞায়িত করতে পারেন। স্টেপ ফাংশন, ইভেন্টব্রিজ এবং অ্যামাজন এসএনএস আপনাকে আপনার প্রয়োজন অনুসারে কাস্টমাইজযোগ্য ত্রুটি পরিচালনা এবং সতর্কতা সহ জটিল পাইপলাইন তৈরি করতে দেয়।
আপনি ভিজিট করে এই সমাধান এবং সোর্স কোড সম্পর্কে আরও জানতে পারেন GitHub সংগ্রহস্থল. DataBrew ডেটা মানের নিয়ম সম্পর্কে আরও জানতে, দেখুন AWS Glue DataBrew এখন গ্রাহকদের তাদের ব্যবসার প্রয়োজনীয়তা সংজ্ঞায়িত এবং যাচাই করার জন্য ডেটা মানের নিয়ম তৈরি করতে দেয় বা পড়ুন AWS Glue DataBrew-এ ডেটার গুণমান যাচাই করা হচ্ছে.
লেখক সম্পর্কে
লাইত আল-সাদুন এনভিশন ইঞ্জিনিয়ারিং দলের একজন প্রধান প্রোটোটাইপিং আর্কিটেক্ট। তিনি AI, মেশিন লার্নিং, IoT এবং এজ কম্পিউটিং, স্ট্রিমিং অ্যানালিটিক্স, রোবোটিক্স এবং স্থানিক কম্পিউটিং ব্যবহার করে বাস্তব-বিশ্বের গ্রাহক সমস্যা সমাধানের জন্য প্রোটোটাইপ এবং সমাধান তৈরি করেন। তার অবসর সময়ে, লাইথ ফটোগ্রাফি, ড্রোন ফ্লাইট, হাইকিং এবং পেন্টবলিংয়ের মতো আউটডোর কার্যকলাপ উপভোগ করেন।
গর্ডন বার্গেস AWS Glue DataBrew-এর একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি গ্রাহকদের তাদের ডেটা থেকে অন্তর্দৃষ্টি আবিষ্কার করতে সহায়তা করার বিষয়ে উত্সাহী, এবং বিশ্লেষণ পণ্যগুলির জন্য ব্যবহারকারীর অভিজ্ঞতা এবং সমৃদ্ধ কার্যকারিতা তৈরিতে ফোকাস করেন৷ কাজের বাইরে, গর্ডন পড়া, কফি এবং কম্পিউটার তৈরি করা উপভোগ করেন।
- '
- &
- 100
- 107
- 7
- সম্পর্কে
- হিসাব
- ক্রিয়াকলাপ
- ঠিকানা
- AI
- সব
- মর্দানী স্ত্রীলোক
- বৈশ্লেষিক ন্যায়
- আবেদন
- স্থাপত্য
- অটোমেটেড
- ডেস্কটপ AWS
- নির্মাণ করা
- ভবন
- ব্যবসায়
- চার্জ
- চেক
- পরিস্কার করা
- কোড
- কফি
- স্তম্ভ
- জটিল
- কম্পিউটার
- কম্পিউটিং
- কনসোল
- গ্রাহকদের
- উপাত্ত
- উপাত্ত গুণমান
- দিন
- আবিষ্কার করা
- গুঁজনধ্বনি
- প্রান্ত
- প্রান্ত কম্পিউটিং
- সম্পাদক
- ইমেইল
- প্রান্ত
- প্রকৌশল
- পরিবেশ
- ঘটনাবলী
- উদাহরণ
- অভিজ্ঞতা
- ব্যর্থতা
- দ্রুত
- বৈশিষ্ট্য
- ফিট
- উড়ান
- পাওয়া
- বিনামূল্যে
- ক্রিয়া
- ক্রিয়াকলাপ
- ভবিষ্যৎ
- ক্রমবর্ধমান
- হ্যান্ডলিং
- স্বাস্থ্যসেবা
- সাহায্য
- হাইকিং
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- সনাক্ত করা
- ভাবমূর্তি
- বাস্তবায়ন
- অর্ন্তদৃষ্টি
- তদন্ত করা
- IOT
- সমস্যা
- IT
- কাজ
- চাবি
- বড়
- সর্বশেষ
- শিখতে
- জ্ঞানী
- শিক্ষা
- লাইন
- LINK
- লিনাক্স
- অবস্থান
- মেশিন লার্নিং
- উত্পাদক
- ML
- অধিক
- ন্যানো
- প্রয়োজন
- প্রজ্ঞাপন
- অপশন সমূহ
- ক্রম
- অন্যান্য
- বহিরঙ্গন
- ফটোগ্রাফি
- অধ্যক্ষ
- পণ্য
- পণ্য
- প্রোফাইল
- প্রোটোটাইপিং
- প্রদানকারী
- গুণ
- পড়া
- হ্রাস করা
- প্রতিস্থাপন করা
- আবশ্যকতা
- Resources
- প্রতিক্রিয়া
- ফলাফল
- আয়
- এখানে ক্লিক করুন
- রোবোটিক্স
- নিয়ম
- চালান
- স্কেল
- Serverless
- সেবা
- সেট
- অনুরূপ
- সহজ
- So
- সলিউশন
- সমাধান
- স্থান-সংক্রান্ত
- স্থানিক কম্পিউটিং
- বিশেষভাবে
- স্প্রেডশীট
- রাষ্ট্র
- পরিসংখ্যান
- অবস্থা
- স্টোরেজ
- স্ট্রিমিং
- চাঁদা
- সাফল্য
- কারিগরী
- প্রান্তিক
- পরীক্ষা
- উৎস
- দ্বারা
- সময়
- টুল
- রুপান্তর
- রূপান্তর
- অভিভাবকসংবঁধীয়
- মূল্য
- চেক
- হয়া যাই ?
- কর্মপ্রবাহ