পান্ডাদের জন্য AWS SDK ডেটা সায়েন্টিস্ট, ডেটা ইঞ্জিনিয়ার এবং ডেভেলপারদের মধ্যে একটি জনপ্রিয় পাইথন লাইব্রেরি। এটি AWS ডেটা এবং বিশ্লেষণ পরিষেবাগুলির মধ্যে মিথস্ক্রিয়া সহজ করে এবং পান্ডাস ডেটাফ্রেম। এটি 22 ধরনের ডেটা স্টোরের মধ্যে সহজ ইন্টিগ্রেশন এবং ডেটা চলাচলের অনুমতি দেয়, সহ আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, এবং আমাজন ওপেন সার্চ সার্ভিস.
মধ্যে পূর্ববর্তী পোস্ট, আমরা আলোচনা করেছি কিভাবে আপনি আপনার কাজের চাপ কমাতে পান্ডাদের জন্য AWS SDK ব্যবহার করতে পারেন রে জন্য AWS আঠালো. আমরা উভয় ব্যবহার কিভাবে ব্যাখ্যা রশ্মি এবং মোডিন লাইব্রেরির মধ্যে আমাদের একটি কম্পিউট ক্লাস্টার জুড়ে কাজের চাপ বিতরণ করতে সক্ষম করে। এই ক্ষমতাগুলিকে চিত্রিত করার জন্য, আমরা অ্যামাজন এস 3 এ প্যারকেট ফাইলগুলি স্কেলে লেখার এবং অ্যাথেনার সমান্তরালে ডেটা অনুসন্ধান করার উদাহরণগুলি অন্বেষণ করেছি৷
এই পোস্টে, আমরা AWS Glue for Ray-এ এই লাইব্রেরি ব্যবহার করার আরও কিছু উন্নত উপায় দেখাই। আমরা যেমন AWS পরিষেবাগুলি থেকে বৈশিষ্ট্য এবং APIগুলি কভার করি S3 নির্বাচন করুন, আমাজন ডায়নামোডিবি, এবং আমাজন টাইমস্ট্রিম.
সমাধান ওভারভিউ
রে এবং মোডিন ফ্রেমওয়ার্কগুলি পান্ডা কাজের লোড সহজে স্কেলিং করার অনুমতি দেয়। আপনি আপনার ল্যাপটপে কোড লিখতে পারেন যা পান্ডাদের জন্য SDK ব্যবহার করে একটি AWS ডেটা বা বিশ্লেষণ পরিষেবা থেকে একটি পান্ডা ডেটাফ্রেমে ডেটা পেতে, পান্ডা ব্যবহার করে এটিকে রূপান্তর করতে এবং তারপরে এটিকে AWS পরিষেবাতে আবার লিখতে পারেন৷ পান্ডাদের জন্য SDK-এর বিতরণকৃত সংস্করণ ব্যবহার করে এবং মোডিন দিয়ে পান্ডা প্রতিস্থাপন করার মাধ্যমে, ঠিক একই কোডটি রে রানটাইমে স্কেল করবে — টাস্ক সমন্বয় এবং বিতরণ সম্পর্কে সমস্ত যুক্তি লুকানো আছে। এই বিমূর্ততার সুবিধা নিয়ে, পান্ডা দলের জন্য AWS SDK কিছু বিদ্যমান API বিতরণ করতে রে আদিম ব্যবহার করেছে (সম্পূর্ণ তালিকার জন্য, দেখুন সমর্থিত API).
এই পোস্টে, আমরা রে কাজের জন্য AWS Glue-এ এই APIগুলির মধ্যে কিছু ব্যবহার করতে দেখাই, যেমন S3 সিলেক্টের সাথে প্রশ্ন করা, একটি DynamoDB টেবিল থেকে লেখা এবং পড়া এবং একটি টাইমস্ট্রিম টেবিলে লেখা। যেহেতু AWS Glue for Ray একটি সম্পূর্ণরূপে পরিচালিত পরিবেশ, এটি এখন পর্যন্ত কাজ চালানোর সবচেয়ে সহজ উপায় কারণ আপনাকে ক্লাস্টার ব্যবস্থাপনা নিয়ে চিন্তা করতে হবে না। আপনি আপনার নিজস্ব ক্লাস্টার তৈরি করতে চান অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2), পড়ুন রে রিমোট ক্লাস্টারে কল বিতরণ করা হচ্ছে.
সমাধান সংস্থান কনফিগার করুন
আমরা একটি ব্যবহার এডাব্লুএস ক্লাউডফর্মেশন সমাধান সংস্থান সরবরাহ করতে স্ট্যাক। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- বেছে নিন লঞ্চ স্ট্যাক আপনার AWS অ্যাকাউন্টে স্ট্যাকের ব্যবস্থা করতে:
এটি সম্পূর্ণ হতে প্রায় 2 মিনিট সময় লাগে৷ সফল স্থাপনায়, ক্লাউডফরমেশন স্ট্যাক হিসাবে স্থিতি দেখায় CREATE_COMPLETE
.
- নেভিগেট করুন AWS গ্লু স্টুডিও AWS Glue নামের একটি চাকরি খুঁজতে
AdvancedGlueRayJob
.
- উপরে চাকরির বিস্তারিত ট্যাব, নিচে স্ক্রোল করুন এবং নির্বাচন করুন উন্নত বৈশিষ্ট্য.
অধীনে কাজের পরামিতি, পান্ডাদের জন্য AWS SDK একটি অতিরিক্ত নির্ভরতা হিসাবে মোডিনের সাথে ইনস্টল করার জন্য একটি অতিরিক্ত পাইথন মডিউল হিসাবে নির্দিষ্ট করা হয়েছে।
- কাজ চালানোর জন্য, নির্বাচন করুন চালান এবং নেভিগেট করুন রান কাজের অগ্রগতি নিরীক্ষণ করার জন্য ট্যাব।
লাইব্রেরি আমদানি করুন
লাইব্রেরি আমদানি করতে, নিম্নলিখিত কোড ব্যবহার করুন:
import awswrangler as wr
পান্ডাদের জন্য AWS SDK শনাক্ত করে যে রানটাইম রে সমর্থন করে কিনা এবং স্বয়ংক্রিয়ভাবে ডিফল্ট পরামিতি সহ একটি ক্লাস্টার শুরু করে। উন্নত ব্যবহারকারীদের দ্বারা এই প্রক্রিয়া ওভাররাইড করতে পারেন শুরু আমদানি কমান্ডের আগে রে রানটাইম।
S3 স্কেল ওয়ার্কফ্লো নির্বাচন করুন
S3 সিলেক্ট আপনাকে কম্প্রেস করা ফাইল সহ S3 অবজেক্টের অনুসন্ধান এবং ফিল্টার করতে SQL স্টেটমেন্ট ব্যবহার করতে দেয়। এটি বিশেষভাবে উপযোগী হতে পারে যদি আপনার কাছে বেশ কয়েকটি TB এর বড় ফাইল থাকে এবং কিছু তথ্য বের করতে চান। যেহেতু কাজের চাপটি Amazon S3-এ অর্পণ করা হয়েছে, তাই আপনাকে ক্লায়েন্ট সাইডে অবজেক্ট ডাউনলোড এবং ফিল্টার করতে হবে না, যার ফলে কম লেটেন্সি, কম খরচ এবং উচ্চ কর্মক্ষমতা হয়।
পান্ডাদের জন্য AWS SDK-এর সাহায্যে, S3 সিলেক্টে এই কলগুলি ক্লাস্টারের রে কর্মীদের মধ্যে বিতরণ করা যেতে পারে। নিম্নলিখিত উদাহরণে, আমরা প্রশ্ন করি আমাজন ডেটা পর্যালোচনা করে Parquet বিন্যাসে, 5-স্টার রেটিং সহ পর্যালোচনার জন্য ফিল্টারিং Mobile_Electronics
পার্টিশন। star_rating
এটি Parquet ডেটার একটি কলাম, যখন পার্টিশনটি একটি ডিরেক্টরি।
scan_range_chunk_size
S3 সিলেক্ট ব্যবহার করার সময় ক্যালিব্রেট করার জন্য একটি গুরুত্বপূর্ণ প্যারামিটার। এটি S3 অবজেক্টকে জিজ্ঞাসা করার জন্য বাইটের পরিসর নির্দিষ্ট করে, যার ফলে প্রতিটি কর্মীকে অর্পিত কাজের পরিমাণ নির্ধারণ করে। এই উদাহরণের জন্য, এটি 16 MB তে সেট করা হয়েছে, যার অর্থ বস্তুটি স্ক্যান করার কাজটি প্রতিটি 3 MB আকারের পৃথক S16 নির্বাচন অনুরোধে সমান্তরাল করা হয়েছে। একটি উচ্চ মান কর্মী প্রতি বৃহত্তর অংশের সমান কিন্তু কম কর্মী, এবং এর বিপরীতে।
ফলাফলগুলি একটি মোডিন ডেটাফ্রেমে ফেরত দেওয়া হয়, যা পান্ডাদের জন্য একটি ড্রপ-ইন প্রতিস্থাপন। এটি একই APIs প্রকাশ করে তবে আপনাকে ক্লাস্টারের সমস্ত কর্মীদের ব্যবহার করতে সক্ষম করে। মোডিন ডেটাফ্রেমের ডেটা সমস্ত ক্রিয়াকলাপের সাথে শ্রমিকদের মধ্যে বিতরণ করা হয়।
স্কেল DynamoDB কর্মপ্রবাহ
DynamoDB হল একটি স্কেলযোগ্য NoSQL ডাটাবেস পরিষেবা যা উচ্চ-কর্মক্ষমতা, কম লেটেন্সি এবং পরিচালিত স্টোরেজ প্রদান করে।
পান্ডাদের জন্য AWS SDK DynamoDB ওয়ার্কফ্লো স্কেল করতে Ray ব্যবহার করে, সমান্তরাল ডেটা পুনরুদ্ধার এবং সন্নিবেশ ক্রিয়াকলাপের অনুমতি দেয়। দ্য wr.dynamodb.read_items
ফাংশন একাধিক কর্মী জুড়ে সমান্তরালভাবে ডায়নামোডিবি থেকে ডেটা পুনরুদ্ধার করে এবং ফলাফলগুলি একটি মোডিন ডেটাফ্রেম হিসাবে ফিরে আসে। একইভাবে, ডায়নামোডিবি-তে ডেটা সন্নিবেশ ব্যবহার করে সমান্তরাল করা যেতে পারে wr.dynamodb.put_df
ফাংশন.
উদাহরণস্বরূপ, নিম্নলিখিত কোডটি একটি ডায়নামোডিবি টেবিলে S3 সিলেক্ট থেকে প্রাপ্ত Amazon Reviews DataFrame সন্নিবেশিত করে এবং তারপরে এটি আবার পড়ে:
DynamoDB কলগুলি AWS পরিষেবা কোটার সাপেক্ষে। কনকারেন্সি ব্যবহার করে সীমিত করা যেতে পারে use_threads
প্যারামিটার।
স্কেল টাইমস্ট্রিম ওয়ার্কফ্লো
টাইমস্ট্রিম হল একটি দ্রুত, স্কেলযোগ্য, সম্পূর্ণরূপে পরিচালিত, উদ্দেশ্য-নির্মিত টাইম সিরিজ ডেটাবেস যা প্রতিদিন ট্রিলিয়ন টাইম সিরিজ ডেটা পয়েন্ট সংরক্ষণ এবং বিশ্লেষণ করা সহজ করে তোলে। পান্ডাদের জন্য AWS SDK-এর সাহায্যে আপনি আপনার ক্লাস্টারে একাধিক কর্মীদের মধ্যে টাইমস্ট্রিম লেখার ক্রিয়াকলাপ বিতরণ করতে পারেন।
ব্যবহার করে টাইমস্ট্রিমে ডেটা লেখা যেতে পারে wr.timestream.write
ফাংশন, যা উন্নত কর্মক্ষমতার জন্য ডেটা সন্নিবেশ প্রক্রিয়াকে সমান্তরাল করে।
এই উদাহরণে, আমরা একটি মোডিন ডেটাফ্রেমে লোড করা Amazon S3 থেকে নমুনা ডেটা ব্যবহার করি। পরিচিত পান্ডা কমান্ড যেমন কলাম নির্বাচন করা বা সূচক রিসেট করা মোডিনের সাথে স্কেলে প্রয়োগ করা হয়:
টাইমস্ট্রিম লেখার অপারেশন আপনার ডেটাসেটের ব্লক জুড়ে সমান্তরাল করা হয়। যদি ব্লকগুলি খুব বড় হয়, আপনি ডেটাসেট পুনরায় বিভাজন করতে এবং থ্রুপুট বাড়াতে Ray ব্যবহার করতে পারেন, কারণ প্রতিটি ব্লক একটি পৃথক থ্রেড দ্বারা পরিচালিত হবে:
আমরা এখন টাইমস্ট্রিমে ডেটা সন্নিবেশ করার জন্য প্রস্তুত, এবং একটি চূড়ান্ত ক্যোয়ারী সারণিতে সারির সংখ্যা নিশ্চিত করে:
পরিষ্কার কর
আপনার AWS অ্যাকাউন্টে অবাঞ্ছিত চার্জ প্রতিরোধ করতে, আমরা এই পোস্টে আপনি যে AWS সংস্থানগুলি ব্যবহার করেছেন তা মুছে ফেলার সুপারিশ করছি:
- Amazon S3 কনসোলে, উপসর্গ সহ S3 বালতি থেকে ডেটা খালি করুন
glue-ray-blog-script
.
- AWS CloudFormation কনসোলে, মুছুন
AdvancedSDKPandasOnGlueRay
স্ট্যাক।
সমস্ত সম্পদ স্বয়ংক্রিয়ভাবে এটি দিয়ে মুছে ফেলা হবে.
উপসংহার
এই পোস্টে, আমরা পান্ডার জন্য AWS SDK ব্যবহার করে আপনার কাজের চাপ চালানোর জন্য আরও কিছু উন্নত নিদর্শন প্রদর্শন করেছি। বিশেষ করে, এই উদাহরণগুলি দেখিয়েছে যে কীভাবে রে ব্যবহার করা হয় লাইব্রেরির মধ্যে শুধুমাত্র Amazon S3 নয়, আরও কয়েকটি AWS পরিষেবার জন্য ক্রিয়াকলাপ বিতরণ করতে। AWS Glue for Ray-এর সংমিশ্রণে ব্যবহার করা হলে, এটি আপনাকে স্কেলে চালানোর জন্য সম্পূর্ণরূপে পরিচালিত পরিবেশে অ্যাক্সেস দেয়। আমরা আশা করি এই সমাধানটি AWS-এ একাধিক ডেটা স্টোর জুড়ে উচ্চতর কর্মক্ষমতা এবং গতি অর্জনের জন্য আপনার বিদ্যমান পান্ডা চাকরিগুলিকে স্থানান্তরিত করতে সাহায্য করবে।
লেখক সম্পর্কে
আবদেল জাইদি AWS পেশাদার পরিষেবাগুলির জন্য একজন সিনিয়র ক্লাউড ইঞ্জিনিয়ার। তিনি AWS ডেটা এবং অ্যানালিটিক্স পরিষেবাগুলিতে ফোকাস করে ওপেন সোর্স প্রকল্পগুলিতে কাজ করেন। তার অবসর সময়ে, তিনি টেনিস এবং হাইকিং খেলা উপভোগ করেন।
অ্যান্টন কুকুশকিন লন্ডন, ইউকে ভিত্তিক AWS প্রফেশনাল সার্ভিসের জন্য একজন ডেটা ইঞ্জিনিয়ার। অবসর সময়ে তিনি বাদ্যযন্ত্র বাজিয়ে উপভোগ করেন।
লিওন লুটেনবার্গার অস্টিন, টেক্সাসে অবস্থিত AWS পেশাদার পরিষেবাগুলির জন্য একজন ডেটা ইঞ্জিনিয়ার৷ তিনি AWS ওপেন-সোর্স সমাধানগুলিতে কাজ করেন যা আমাদের গ্রাহকদের তাদের ডেটা স্কেলে বিশ্লেষণ করতে সহায়তা করে। তার অবসর সময়ে, তিনি পড়া এবং ভ্রমণ উপভোগ করেন।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোএআইস্ট্রিম। Web3 ডেটা ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- অ্যাড্রিয়েন অ্যাশলির সাথে ভবিষ্যত মিন্টিং। এখানে প্রবেশ করুন.
- PREIPO® এর সাথে PRE-IPO কোম্পানিতে শেয়ার কিনুন এবং বিক্রি করুন। এখানে প্রবেশ করুন.
- উত্স: https://aws.amazon.com/blogs/big-data/advanced-patterns-with-aws-sdk-for-pandas-on-aws-glue-for-ray/
- : আছে
- : হয়
- :না
- :কোথায়
- 100
- 107
- 14
- 15%
- 16
- 17
- 20
- 22
- 8
- a
- সম্পর্কে
- প্রবেশ
- হিসাব
- অর্জন করা
- দিয়ে
- অতিরিক্ত
- অগ্রসর
- সুবিধা
- সব
- অনুমতি
- অনুমতি
- অনুমতি
- বরাবর
- মর্দানী স্ত্রীলোক
- আমাজন EC2
- অ্যামাজন ওয়েব সার্ভিসেস
- মধ্যে
- পরিমাণ
- an
- বৈশ্লেষিক ন্যায়
- বিশ্লেষণ করা
- এবং
- API গুলি
- ফলিত
- রয়েছি
- AS
- At
- অস্টিন
- স্বয়ংক্রিয়ভাবে
- ডেস্কটপ AWS
- এডাব্লুএস ক্লাউডফর্মেশন
- এডাব্লুএস আঠালো
- AWS প্রফেশনাল সার্ভিসেস
- পিছনে
- ভিত্তি
- BE
- কারণ
- আগে
- মধ্যে
- বিশাল
- বাধা
- ব্লক
- উভয়
- কিন্তু
- by
- কল
- CAN
- ক্ষমতা
- চার্জ
- বেছে নিন
- মক্কেল
- মেঘ
- গুচ্ছ
- কোড
- স্তম্ভ
- কলাম
- সমাহার
- সম্পূর্ণ
- গনা
- গণ্যমান্য
- কনসোল
- সমন্বয়
- মূল্য
- Counter
- আবরণ
- সৃষ্টি
- গ্রাহকদের
- উপাত্ত
- ডেটা ইঞ্জিনিয়ার
- ডেটা পয়েন্ট
- ডেটাবেস
- DATETIME
- দিন
- ডিফল্ট
- প্রদর্শিত
- বশ্যতা
- বিস্তৃতি
- বিস্তারিত
- নির্ণয়
- ডেভেলপারদের
- আলোচনা
- বিতরণ করা
- বণ্টিত
- বিতরণ
- Dont
- নিচে
- ডাউনলোড
- প্রতি
- সবচেয়ে সহজ পদ্ধিতি হল
- সহজে
- সহজ
- সক্ষম করা
- সম্ভব
- প্রকৌশলী
- প্রকৌশলী
- পরিবেশ
- সমান
- থার (eth)
- ঠিক
- উদাহরণ
- উদাহরণ
- বিদ্যমান
- ব্যাখ্যা
- অন্বেষণ করা
- অতিরিক্ত
- নির্যাস
- পরিচিত
- এ পর্যন্ত
- দ্রুত
- বৈশিষ্ট্য
- কম
- নথি পত্র
- ছাঁকনি
- ফিল্টারিং
- চূড়ান্ত
- আবিষ্কার
- দৃষ্টি নিবদ্ধ করা
- অনুসরণ
- জন্য
- বিন্যাস
- অবকাঠামো
- থেকে
- সম্পূর্ণ
- সম্পূর্ণরূপে
- ক্রিয়া
- পাওয়া
- দেয়
- ঘাঁটা
- আছে
- he
- সাহায্য
- গোপন
- উচ্চ পারদর্শিতা
- ঊর্ধ্বতন
- হাইকিং
- তার
- আশা
- কিভাবে
- কিভাবে
- এইচটিএমএল
- HTTP
- HTTPS দ্বারা
- if
- আমদানি
- গুরুত্বপূর্ণ
- উন্নত
- in
- সুদ্ধ
- বৃদ্ধি
- সূচক
- তথ্য
- সন্নিবেশ
- ইনস্টল
- যন্ত্র
- ইন্টিগ্রেশন
- মিথষ্ক্রিয়া
- মধ্যে
- IT
- নিজেই
- কাজ
- জবস
- JPG
- মাত্র
- ল্যাপটপ
- বড়
- বৃহত্তর
- অদৃশ্যতা
- শুরু করা
- নেতৃত্ব
- লাইব্রেরি
- সীমিত
- তালিকা
- যুক্তিবিদ্যা
- লণ্ডন
- প্রণীত
- তৈরি করে
- পরিচালিত
- ব্যবস্থাপনা
- অর্থ
- মাপ
- স্থানান্তর
- মিনিট
- মডিউল
- মনিটর
- অধিক
- আন্দোলন
- বহু
- সুরেলা
- নামে
- যথা
- নেভিগেট করুন
- প্রয়োজন
- এখন
- সংখ্যা
- লক্ষ্য
- বস্তু
- প্রাপ্ত
- of
- on
- ওপেন সোর্স
- অপারেশন
- অপারেশনস
- or
- অন্যান্য
- আমাদের
- অগ্রাহ্য করা
- নিজের
- পান্ডাস
- সমান্তরাল
- স্থিতিমাপ
- পরামিতি
- বিশেষ
- বিশেষত
- নিদর্শন
- কর্মক্ষমতা
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- কেলি
- পয়েন্ট
- জনপ্রিয়
- পোস্ট
- প্রতিরোধ
- প্রক্রিয়া
- পেশাদারী
- উন্নতি
- প্রকল্প
- উপলব্ধ
- বিধান
- পাইথন
- পরিসর
- সৈনিকগণ
- রশ্মি
- পড়া
- পড়া
- প্রস্তুত
- সুপারিশ করা
- এলাকা
- দূরবর্তী
- প্রতিস্থাপন
- অনুরোধ
- Resources
- ফলাফল
- পর্যালোচনা
- চালান
- রান
- s
- একই
- মাপযোগ্য
- স্কেল
- আরোহী
- স্ক্যানিং
- বিজ্ঞানীরা
- স্ক্রল
- SDK
- দেখ
- নির্বাচন
- জ্যেষ্ঠ
- আলাদা
- ক্রম
- সেবা
- সেবা
- সেট
- বিভিন্ন
- প্রদর্শনী
- শোকেস
- শো
- পাশ
- একভাবে
- সহজ
- আয়তন
- সমাধান
- সলিউশন
- কিছু
- নিদিষ্ট
- এসকিউএল
- গাদা
- বিবৃতি
- অবস্থা
- প্রারম্ভিক ব্যবহারের নির্দেশাবলী
- স্টোরেজ
- দোকান
- দোকান
- বিষয়
- সফল
- এমন
- সমর্থন
- টেবিল
- লাগে
- গ্রহণ
- কার্য
- টীম
- টেনিস
- টেক্সাস
- যে
- সার্জারির
- তাদের
- তারপর
- যার ফলে
- এইগুলো
- এই
- থ্রুপুট
- সময়
- সময় সিরিজ
- থেকে
- অত্যধিক
- রুপান্তর
- ভ্রমণ
- বহু ট্রিলিয়ান
- ধরনের
- Uk
- অনাবশ্যক
- us
- ব্যবহার
- ব্যবহৃত
- ব্যবহারকারী
- ব্যবহারসমূহ
- ব্যবহার
- মূল্য
- সংস্করণ
- প্রয়োজন
- উপায়..
- উপায়
- we
- ওয়েব
- ওয়েব সার্ভিস
- কখন
- যে
- যখন
- ইচ্ছা
- সঙ্গে
- মধ্যে
- হয়া যাই ?
- কর্মী
- শ্রমিকদের
- কর্মপ্রবাহ
- কাজ
- চিন্তা
- লেখা
- কোড লিখুন
- লেখা
- লিখিত
- ইয়ামল
- আপনি
- আপনার
- zephyrnet