কিভাবে সুপ্ত স্পেস অ্যামাজন সেজমেকার মডেলের সমান্তরাল লাইব্রেরি ব্যবহার করে বৃহৎ আকারের ট্রান্সফরমারগুলির সীমানাকে ঠেলে দেয়

উত্স নোড: 1204406

এই ব্লগটির সহ-লেখক সারা জেন হং সিএসও, ড্যারিল বারনহার্ট সিটিও, এবং ল্যাটেন্ট স্পেস-এর সিইও ইয়ান থম্পসন এবং AWS-এর প্রেম রাঙ্গা৷

সুপ্ত স্থান হল বিমূর্ত ধারণাগুলির একটি লুকানো উপস্থাপনা যা মেশিন লার্নিং (এমএল) মডেলগুলি শেখে। উদাহরণস্বরূপ, "কুকুর", "ফুল" বা "দরজা" হল সুপ্ত স্থানের ধারণা বা অবস্থান। এ সুপ্ত স্থান, আমরা এমন একটি ইঞ্জিনে কাজ করছি যা আপনাকে ভাষা এবং ভিজ্যুয়াল প্রম্পট উভয়ের মাধ্যমে এই স্থানটি পরিচালনা এবং অন্বেষণ করতে দেয়৷ ল্যাটেন্ট স্পেস টিম দুটি ক্ষেত্র থেকে এসেছে যেগুলি দীর্ঘদিন ধরে সামান্য ওভারল্যাপ করেছে: গ্রাফিক্স এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP)। ঐতিহ্যগতভাবে, চিত্র এবং পাঠ্যের পদ্ধতিগুলি পৃথকভাবে পরিচালনা করা হয়েছে, প্রতিটির নিজস্ব জটিল, ব্যয়বহুল এবং ভঙ্গুর বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের ইতিহাস রয়েছে। নথি বোঝার বা প্রশ্নের উত্তর দেওয়ার মতো এনএলপি কাজগুলি সাধারণত দৃশ্য বোঝার বা রেন্ডারিংয়ের মতো দৃষ্টি কাজের সাথে খুব কম মিল থাকে এবং সাধারণত আমরা প্রতিটি কাজের জন্য খুব আলাদা পদ্ধতি এবং মডেল ব্যবহার করি। কিন্তু এটি দ্রুত পরিবর্তন হচ্ছে।

একটি একক ভাগ করা সুপ্ত স্থানে এই পদ্ধতির একত্রীকরণ গেমিং থেকে নথি বোঝার জন্য সৃজনশীল এবং বাণিজ্যিক অ্যাপ্লিকেশনগুলির একটি নতুন প্রজন্মকে আনলক করে। কিন্তু এই নতুন অ্যাপ্লিকেশনগুলিকে একটি একক মডেলে আনলক করা নতুন স্কেলিং চ্যালেঞ্জগুলিকে উন্মুক্ত করে, যেমনটি রিচার্ড সাটনের "দ্য বিটার লেসন" এ হাইলাইট করা হয়েছে এবং স্কেলিং আইনের উপর গত কয়েক বছরে উত্তেজনাপূর্ণ কাজ। এটি সম্ভব করার জন্য, ল্যাটেন্ট স্পেস এই পদ্ধতিগুলিকে একক মডেলে ফিউজ করার জন্য অত্যাধুনিক গবেষণার উপর কাজ করছে, তবে এটি স্কেল এবং দক্ষতার সাথে করতেও। এখানেই মডেল সমান্তরালতা আসে।

আমাজন সেজমেকারএর অনন্য স্বয়ংক্রিয় মডেল বিভাজন এবং দক্ষ পাইপলাইনিং পদ্ধতির ফলে আমাদের মডেল সমান্তরালতা গ্রহণ করা সম্ভব হয়েছে সামান্য প্রকৌশলী প্রচেষ্টার মাধ্যমে, এবং আমরা আমাদের মডেলের প্রশিক্ষণকে 1 বিলিয়ন প্যারামিটার অতিক্রম করেছি (আমরা p4d.24xlarge A100 দৃষ্টান্ত), যা আমাদের জন্য একটি গুরুত্বপূর্ণ প্রয়োজন। অধিকন্তু, আমরা লক্ষ্য করেছি যে যখন 16 নোড, আটটি জিপিইউ প্রশিক্ষণ সেটআপ সেজমেকার মডেলের সমান্তরাল লাইব্রেরির সাথে প্রশিক্ষণের সময়, আমরা আমাদের পূর্ববর্তী প্রশিক্ষণ রানের তুলনায় দক্ষতায় 38% উন্নতি রেকর্ড করেছি।

বড় আকারের ট্রান্সফরমার প্রশিক্ষণের সাথে চ্যালেঞ্জ

ল্যাটেন্ট স্পেসে, আমরা ট্রান্সফরমার মডেলগুলিতে ভাষা এবং দৃষ্টিকে একত্রিত করছি যাতে ব্যবহারকারীর কল্পনা থেকে "বণ্টনের বাইরে" ব্যবহার কেসগুলিকে সমর্থন করার জন্য কোটি কোটি প্যারামিটার রয়েছে বা যা বাস্তব জগতে ঘটবে কিন্তু আমাদের প্রশিক্ষণ ডেটাতে নয়৷ আমরা বিলিয়ন প্যারামিটার এবং এর বাইরে দুটি ভিন্ন উপায়ে স্কেলিং করার অন্তর্নিহিত চ্যালেঞ্জগুলি পরিচালনা করছি:

তথ্য পুনরুদ্ধার কৌশলগুলি দীর্ঘকাল ধরে সার্চ ইঞ্জিন এবং QA কার্যগুলির একটি মূল উপাদান। সম্প্রতি, আধুনিক ট্রান্সফরমারগুলির সাথে ক্লাসিক IR কৌশলগুলিকে একত্রিত করে উত্তেজনাপূর্ণ অগ্রগতি হয়েছে, বিশেষত প্রশ্নের উত্তর দেওয়ার কাজের জন্য যেখানে একটি মডেলকে একটি নিউরাল রিট্রিভারের সাথে যৌথভাবে প্রশিক্ষণ দেওয়া হয় যা প্রশ্নের উত্তর দিতে সাহায্য করার জন্য প্রাসঙ্গিক নথি পুনরুদ্ধার করতে শেখে। একটি সংক্ষিপ্ত বিবরণের জন্য, FAIR থেকে সাম্প্রতিক কাজ দেখুন পুনরুদ্ধার অগমেন্টেড জেনারেশন: বুদ্ধিমান প্রাকৃতিক ভাষা প্রক্রিয়াকরণ মডেল তৈরিকে স্ট্রীমলাইন করা এবং ফিউশন-ইন-ডিকোডার, গুগল ব্রেইনের তা REALM-, এবং এনভিডিয়ার নিউরাল রিট্রিভার প্রশ্নের উত্তর দেওয়ার জন্য।

যদিও পুনরুদ্ধার-বর্ধিত কৌশলগুলি খরচ এবং দক্ষতার সাথে সাহায্য করে, আমরা এখনও আমাদের বৃহত্তম মডেলের জন্য একটি একক GPU-তে মডেলটি ফিট করতে অক্ষম। এর মানে হল যে আমাদের এটিকে প্রশিক্ষণের জন্য মডেল সমান্তরালতা ব্যবহার করতে হবে। যাইহোক, আমাদের পুনরুদ্ধার স্থাপত্যের প্রকৃতির কারণে, প্রশিক্ষণ ইনপুট জুড়ে পুনরুদ্ধার করা প্রসঙ্গের মধ্যে আন্তঃনির্ভরতার কারণে আমাদের মডেল বিভাজন ডিজাইন করা চ্যালেঞ্জিং ছিল। তদুপরি, এমনকি যদি আমরা নির্ধারণ করি যে আমরা কীভাবে আমাদের মডেলকে বিভক্ত করি, মডেল সমান্তরালতার প্রবর্তন করা আমাদের গবেষণা এবং বিকাশের জীবনচক্র জুড়ে ম্যানুয়ালি করার জন্য একটি উল্লেখযোগ্য ইঞ্জিনিয়ারিং কাজ ছিল।

সেজমেকার মডেল সমান্তরাল লাইব্রেরি

মডেল সমান্তরালতা হল একটি মডেলকে একাধিক ডিভাইস বা নোডের মধ্যে বিভক্ত করার প্রক্রিয়া (যেমন GPU-সজ্জিত উদাহরণ) এবং GPU ব্যবহার সর্বাধিক করার জন্য এই ডিভাইসগুলি জুড়ে মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য একটি দক্ষ পাইপলাইন তৈরি করা। দ্য মডেল সমান্তরাল লাইব্রেরি সেজমেকার-এ স্বয়ংক্রিয় মডেল বিভাজন প্রদান করে মডেলের সমান্তরালতাকে আরও অ্যাক্সেসযোগ্য করে তোলে, এটিও বলা হয় স্বয়ংক্রিয় মডেল পার্টিশন এবং অত্যাধুনিক পাইপলাইন সময়সূচী রান. মডেল স্প্লিটিং অ্যালগরিদম গতি বা মেমরি খরচের জন্য অপ্টিমাইজ করতে পারে। লাইব্রেরি একটি পার্টিশনিং অ্যালগরিদম ব্যবহার করে যা মেমরির ভারসাম্য বজায় রাখে, ডিভাইসগুলির মধ্যে যোগাযোগ কম করে এবং কর্মক্ষমতা অপ্টিমাইজ করে।

স্বয়ংক্রিয় মডেল পার্টিশন

আমাদের PyTorch ব্যবহারের ক্ষেত্রে, মডেল সমান্তরাল লাইব্রেরি অভ্যন্তরীণভাবে একটি ট্রেসিং ধাপ চালায় (প্রথম প্রশিক্ষণ ধাপে) যা মডেল গ্রাফ তৈরি করে এবং টেনসর এবং প্যারামিটার আকার নির্ধারণ করে। এটি তারপর একটি গাছ তৈরি করে, যা বাসা নিয়ে গঠিত nn.Module মডেলের বস্তু, সেইসাথে ট্রেসিং থেকে সংগৃহীত অতিরিক্ত ডেটা, যেমন সঞ্চিত পরিমাণ nn.Parameters, এবং প্রত্যেকের জন্য রানটাইম nn.Module.

লাইব্রেরি তারপরে এই গাছটিকে রুট থেকে অতিক্রম করে এবং একটি পার্টিশনিং অ্যালগরিদম চালায় যা গণনামূলক লোড এবং মেমরি ব্যবহারের ভারসাম্য বজায় রাখে এবং দৃষ্টান্তগুলির মধ্যে যোগাযোগ কমিয়ে দেয়। যদি একাধিক nn.Modules একই nn.Parameter শেয়ার করে, তাহলে এই মডিউলগুলি একই ডিভাইসে স্থাপন করা হয় যাতে একই প্যারামিটারের একাধিক সংস্করণ বজায় না থাকে। পার্টিশনের সিদ্ধান্ত নেওয়ার পরে, নির্ধারিত মডিউল এবং ওজনগুলি তাদের ডিভাইসে লোড করা হয়।

পাইপলাইন রান সময়সূচী

SageMaker বিতরণ করা মডেল সমান্তরাল লাইব্রেরির আরেকটি মূল বৈশিষ্ট্য পাইপলাইন করা রান, যা মডেল প্রশিক্ষণের সময় কম্পিউটেশন তৈরি করা এবং ডেটা প্রক্রিয়াকরণের ক্রম নির্ধারণ করে। পাইপলাইনিং একটি মিনি-ব্যাচকে মাইক্রোব্যাচে বিভক্ত করার উপর ভিত্তি করে তৈরি করা হয়, যেগুলিকে একে একে প্রশিক্ষণ পাইপলাইনে খাওয়ানো হয় এবং লাইব্রেরির রানটাইম দ্বারা সংজ্ঞায়িত একটি রানের সময়সূচী অনুসরণ করে।

মাইক্রোব্যাচ পাইপলাইন নিশ্চিত করে যে সমস্ত GPU সম্পূর্ণরূপে ব্যবহার করা হয়েছে, যা আমাদের নিজেদের তৈরি করতে হবে, কিন্তু মডেল সমান্তরাল লাইব্রেরির সাথে এটি পর্দার আড়ালে সুন্দরভাবে ঘটে। অবশেষে, আমরা ব্যবহার করতে পারেন অ্যামাজন এফএসএক্স, যা পুনরুদ্ধার সহ একটি মাল্টিমোডাল মডেলের প্রশিক্ষণের সময় ফাইলের সংখ্যার ভিত্তিতে আমাদের পড়ার গতি দ্রুত হয় তা নিশ্চিত করার জন্য গুরুত্বপূর্ণ।

প্রশিক্ষণ আর্কিটেকচার

নিম্নলিখিত চিত্রটি উপস্থাপন করে যে আমরা কীভাবে আমাদের প্রশিক্ষণ স্থাপত্য স্থাপন করি। আমাদের প্রাথমিক উদ্দেশ্য ছিল প্রশিক্ষণের গতি উন্নত করা এবং খরচ কমানো। আমরা যে চিত্র এবং ভাষা ট্রান্সফরমারগুলিকে প্রশিক্ষণ দিচ্ছি সেগুলি অত্যন্ত জটিল, যার ভিতরে উল্লেখযোগ্যভাবে বৃহৎ সংখ্যক স্তর এবং ওজন রয়েছে, বিলিয়ন প্যারামিটারে চলে, যার সবকটিই তাদের একটি একক নোডের স্মৃতিতে ফিট করতে অক্ষম করে তোলে৷ প্রতিটি নোড মডেলের একটি উপসেট বহন করে, যার মাধ্যমে ডেটা প্রবাহিত হয় এবং রূপান্তরগুলি ভাগ করা হয় এবং সংকলিত হয়। আমরা 16 সেটআপ করি p4d.24x বড় নিম্নলিখিত আর্কিটেকচার উপস্থাপনা ব্যবহার করে আটটি GPU সহ প্রতিটি উদাহরণ:

যখন আমরা আমাদের মডেলগুলিকে স্কেল করি, একটি সাধারণ প্রবণতা হল নেটওয়ার্কের ওজনে সবকিছু সংরক্ষণ করা। যাইহোক, ব্যবহারিক উদ্দেশ্যে, আমরা রেন্ডারিংয়ের কাজটিতে সাহায্য করার জন্য কীভাবে প্রাসঙ্গিক প্রসঙ্গগুলি সন্ধান করতে হয় তা শিখতে আমাদের মডেলগুলিকে বাড়িয়ে তুলতে চাই। এটি আমাদেরকে ছবির গুণমানের সাথে আপস না করে আমাদের পরিবেশন খরচ কম রাখতে সক্ষম করে। আমরা একটি বৃহৎ ট্রান্সফরমার-ভিত্তিক NLP মডেল ব্যবহার করি এবং পূর্বে উল্লিখিত হিসাবে, আমরা নিম্নলিখিত দ্বারা দেখানো SageMaker মডেল সমান্তরাল লাইব্রেরির সাথে প্রশিক্ষণ দক্ষতায় 38% বৃদ্ধি লক্ষ্য করেছি:

  • টেনসর স্তরের সমান্তরালতার ক্ষেত্রে প্রতিটি গণনার জন্য আমাদের একটি অলরিডুস প্রয়োজন। এটি O(log_2 n) সমান্তরাল পদক্ষেপ নেয়। O(n log_2 n) মোট অপারেশনের জন্য এটি হল n মেশিনগুলি O(n) পদক্ষেপ নিচ্ছে।
  • পাইপলাইনের সমান্তরালতার জন্য, পাইপলাইনের নিচে ডেটা পাঠানোর জন্য আমাদের O(1) সমান্তরাল পদক্ষেপ প্রয়োজন
  • আটটি জিপিইউ সহ 16টি মেশিন দেওয়া হয়েছে, আমাদের কাছে পাইপলাইনের সমান্তরাল জন্য O(1) খরচ এবং গভীরতা-ভিত্তিক মডেলের সমান্তরাল জন্য O(log_2(8)) = O(3) খরচ রয়েছে।
  • এই ক্ষেত্রে, আমরা দেখতে পাই যে পাইপলাইন সমান্তরালে স্যুইচ করার মাধ্যমে নেটওয়ার্ক খরচ 1/3য় কমে যায় যা আমরা SageMaker মডেলের সমান্তরালে ব্যবহার করি এবং সামগ্রিক প্রশিক্ষণ খরচ 1/2 + 1/2 * 1/log_2(16) এ কমে যায় ) = মূল খরচের 0.625 একটি সংশ্লিষ্ট দক্ষতা উন্নতির দিকে পরিচালিত করে।

সাধারণভাবে, যখন প্রয়োজনীয় প্রশিক্ষণ বিতরণের পরোয়ানা (স্কেলিং মডেলের আকার বা প্রশিক্ষণের ডেটার সমস্যা), কোন পদ্ধতিটি সবচেয়ে ভাল কাজ করে তা নির্ধারণ করতে আমরা সেরা অনুশীলনের একটি সেট অনুসরণ করতে পারি।

বিতরণ করা প্রশিক্ষণের জন্য সর্বোত্তম অনুশীলন

আমাদের অভিজ্ঞতার ভিত্তিতে, আমরা একটি বিতরণ করা ডেটা সমান্তরাল পদ্ধতির সাথে শুরু করার পরামর্শ দিই। বিতরণ করা ডেটা সমান্তরালতা যেমন সেজমেকার ডেটা সমান্তরাল লাইব্রেরি বিতরণ করেছে মডেলের প্রতিলিপিগুলির সাথে বেশিরভাগ নেটওয়ার্কিং সমস্যাগুলি সমাধান করে, তাই আপনার মডেলগুলিকে সবচেয়ে ছোট সংখ্যক নোডের সাথে ফিট করা উচিত, তারপর প্রয়োজন অনুসারে ব্যাচের আকার স্কেল করার জন্য প্রতিলিপি করা উচিত।

প্রশিক্ষণের সময় যদি আপনার স্মৃতি ফুরিয়ে যায়, যেমনটি আমরা এই পরিস্থিতিতে করেছি, আপনি একটি মডেল সমান্তরাল পদ্ধতিতে স্যুইচ করতে চাইতে পারেন। যাইহোক, মডেল সমান্তরাল প্রশিক্ষণ চেষ্টা করার আগে এই বিকল্পগুলি বিবেচনা করুন:

  • NVIDIA টেনসর কোর-সজ্জিত হার্ডওয়্যারে ব্যবহার করুন মিশ্র-নির্ভুলতা প্রশিক্ষণ গতি তৈরি করতে এবং মেমরি খরচ কমাতে।
  • ব্যাচের আকার হ্রাস করুন (অথবা সম্ভব হলে চিত্রের রেজোলিউশন বা এনএলপি সিকোয়েন্সের দৈর্ঘ্য কমিয়ে দিন)।

উপরন্তু, আমরা এমন মডেল ডিজাইন পছন্দ করি যেগুলিতে বর্ণিত ব্যাচ স্বাভাবিককরণ নেই স্বাভাবিককরণ ছাড়াই উচ্চ-কর্মক্ষমতা বড়-স্কেল চিত্র স্বীকৃতি. যদি এটি এড়ানো না যায়, তবে নিশ্চিত করুন যে ব্যাচ স্বাভাবিককরণ ডিভাইস জুড়ে সিঙ্ক হয়েছে। আপনি যখন বিতরণ করা প্রশিক্ষণ ব্যবহার করেন, তখন আপনার ব্যাচ GPU গুলি জুড়ে বিভক্ত হয়, তাই সঠিক ব্যাচ পরিসংখ্যানের জন্য সমস্ত ডিভাইস জুড়ে সিঙ্ক্রোনাইজেশন প্রয়োজন। এটি ছাড়া, স্বাভাবিকীকরণে ত্রুটি বৃদ্ধি পাবে এবং এর ফলে অভিসারন নষ্ট হবে।

আপনার নিম্নলিখিত সীমাবদ্ধতা থাকলে মডেল সমান্তরাল প্রশিক্ষণ দিয়ে শুরু করুন:

  • আপনার মডেল একটি একক ডিভাইসে মাপসই করা হয় না
  • আপনার মডেলের আকারের কারণে, আপনি বড় ব্যাচের মাপ বেছে নেওয়ার ক্ষেত্রে সীমাবদ্ধতার সম্মুখীন হচ্ছেন, যেমন আপনার মডেলের ওজন আপনার জিপিইউ মেমরির বেশিরভাগ অংশ নেয় এবং আপনি একটি ছোট, সাবঅপ্টিমাল ব্যাচের আকার বেছে নিতে বাধ্য হন

পারফরম্যান্সের জন্য অপ্টিমাইজ করার সময়, নিম্নলিখিতগুলি করুন:

  • আন্তঃ-নোড যোগাযোগের জন্য পাইপলাইন ব্যবহার করুন বিলম্ব কমাতে এবং থ্রুপুট বাড়াতে
  • যেকোনো বুদবুদ কমাতে যতটা সম্ভব ছোট পাইপলাইন রাখুন। বুদবুদের আকারের সাথে কম্পিউটেশনাল দক্ষতার ভারসাম্য বজায় রাখার জন্য মাইক্রোব্যাচের সংখ্যা টিউন করা উচিত এবং অন্তত পাইপলাইনের দৈর্ঘ্য হওয়া উচিত। প্রয়োজনে আপনি টোকেন স্তরে বর্ণিত মাইক্রোব্যাচগুলি গঠন করতে পারেন TeraPipe: বড় মাপের ভাষা মডেল প্রশিক্ষণের জন্য টোকেন স্তরের পাইপলাইন সমান্তরালতা

খরচের জন্য অপ্টিমাইজ করার সময়, প্রশিক্ষণের জন্য SageMaker পরিচালিত স্পট ইনস্ট্যান্স ব্যবহার করুন। এটি অন-ডিমান্ড দৃষ্টান্তগুলির তুলনায় 90% পর্যন্ত প্রশিক্ষণের মডেলগুলির ব্যয়কে অপ্টিমাইজ করতে পারে। SageMaker আপনার পক্ষ থেকে স্পট বাধাগুলি পরিচালনা করে।

অন্যান্য কারণ বিবেচনা করা:

  • একটি নোডের মধ্যে যখন একটি দ্রুত আন্তঃসংযোগ থাকে, তখন এটি আরও সংক্ষিপ্ত হয়। যদি পর্যাপ্ত ইন্ট্রা-নোড নেটওয়ার্ক ক্ষমতা থাকে, তাহলে আরও সর্বোত্তম গণনার জন্য ডেটা রিসাফলিং একটি সুবিধা দেখাতে পারে।
  • যদি অ্যাক্টিভেশনগুলি ওজন টেনসরের চেয়ে অনেক বড় হয়, তাহলে একটি শার্ড অপ্টিমাইজারও সাহায্য করতে পারে। অনুগ্রহ করে পড়ুন জেরো আরো বিস্তারিত জানার জন্য.

নিম্নলিখিত সারণীটি কিছু সাধারণ প্রশিক্ষণ স্কেলআপ পরিস্থিতি প্রদান করে এবং কীভাবে আপনি সেগুলি AWS-এ কনফিগার করতে পারেন।

দৃশ্যপট এটা কখন প্রযোজ্য? সমাধান
একটি একক GPU থেকে অনেক GPU-তে স্কেলিং যখন প্রশিক্ষণ ডেটার পরিমাণ বা মডেলের আকার খুব বড় হয় একটি মাল্টি-জিপিইউ ইন্সট্যান্সে পরিবর্তন করুন যেমন p3.16xlarge, যেটিতে আটটি GPU আছে, আটটি GPU তে ডেটা এবং প্রসেসিং বিভক্ত এবং আপনার মডেলকে প্রশিক্ষিত করতে যতটা সময় লাগে কাছাকাছি-রৈখিক গতি তৈরি করে৷
একটি একক দৃষ্টান্ত থেকে একাধিক দৃষ্টান্তে স্কেলিং যখন স্কেলিং প্রয়োজন ইনস্ট্যান্স আকার পরিবর্তনের বাইরে প্রসারিত হয় আপনার instance_type p3.16xlarge এবং instance_count 2-এ সেট করে SageMaker Python SDK-এর এস্টিমেটর ফাংশন দিয়ে দৃষ্টান্তের সংখ্যা স্কেল করুন। একটি p3.16xlarge-এ আটটি GPU-এর পরিবর্তে, দুটি অভিন্ন দৃষ্টান্তে আপনার 16টি GPU আছে। ব্যবহার বিবেচনা করুন সেজমেকার ডেটা সমান্তরাল লাইব্রেরি বিতরণ করেছে.
প্রশিক্ষণের জন্য একটি মডেল সমান্তরাল পদ্ধতি নির্বাচন করা প্রশিক্ষণের সময় মেমরি ত্রুটির সম্মুখীন হলে ব্যবহার করে একটি মডেল সমান্তরাল পদ্ধতিতে স্যুইচ করুন SageMaker মডেল সমান্তরাল লাইব্রেরি বিতরণ.
আন্তঃ নোড যোগাযোগের জন্য নেটওয়ার্ক কর্মক্ষমতা একাধিক উদাহরণ সহ বিতরণ করা প্রশিক্ষণের জন্য (উদাহরণস্বরূপ, একটি AllReduce অপারেশন করার সময় ক্লাস্টারের নোডগুলির মধ্যে যোগাযোগ) আপনার দৃষ্টান্তগুলি একই অঞ্চল এবং একই প্রাপ্যতা অঞ্চলে হওয়া দরকার। আপনি যখন SageMaker Python SDK ব্যবহার করেন, তখন এটি আপনার জন্য পরিচালনা করা হয়। আপনার প্রশিক্ষণের ডেটাও একই প্রাপ্যতা অঞ্চলে থাকা উচিত। ব্যবহার বিবেচনা করুন সেজমেকার ডেটা সমান্তরাল লাইব্রেরি বিতরণ করেছে.
অপ্টিমাইজ করা GPU, নেটওয়ার্ক এবং স্টোরেজ বড় স্কেল বিতরণ প্রশিক্ষণ প্রয়োজন জন্য p4d.24xlarge ইন্সট্যান্স টাইপটি দ্রুত স্থানীয় স্টোরেজ এবং 400 গিগাবিট পর্যন্ত একটি দ্রুত নেটওয়ার্ক ব্যাকপ্লেনের জন্য ডিজাইন করা হয়েছে, এবং আমরা এটিকে বিতরণ করা প্রশিক্ষণের জন্য সবচেয়ে কার্যকরী বিকল্প হিসেবে সুপারিশ করি।

উপসংহার

SageMaker-এ মডেল সমান্তরাল লাইব্রেরির সাথে, আমরা বাক্সের বাইরে অনেক সুবিধা পাই, যেমন স্বয়ংক্রিয় মডেল পার্টিশন এবং দক্ষ পাইপলাইনিং। এই পোস্টে, আমরা আমাদের ML ব্যবহারের ক্ষেত্রে আমাদের চ্যালেঞ্জগুলি, বিভিন্ন প্রশিক্ষণ পদ্ধতির বিষয়ে আমাদের বিবেচনা এবং কীভাবে আমরা আমাদের প্রশিক্ষণের গতি বাড়ানোর জন্য Amazon SageMaker মডেলের সমান্তরাল লাইব্রেরি ব্যবহার করেছি তা শেয়ার করেছি। সর্বোপরি, এখানে বর্ণিত মডেলের সমান্তরালতা এবং কর্মক্ষমতা উন্নতির জন্য সেরা অনুশীলনগুলি গ্রহণ করতে এখন মাত্র কয়েক ঘন্টা সময় লাগতে পারে। যদি এই পোস্টটি আপনাকে সাহায্য করে বা আপনাকে একটি সমস্যা সমাধান করতে অনুপ্রাণিত করে, আমরা এটি সম্পর্কে শুনতে চাই! আপনার মন্তব্য এবং প্রতিক্রিয়া শেয়ার করুন.

তথ্যসূত্র

আরও তথ্যের জন্য, অনুগ্রহ করে নিম্নলিখিত দেখুন:


লেখক সম্পর্কে

প্রেম রাঙ্গা আটলান্টা, GA ভিত্তিক একজন এন্টারপ্রাইজ সলিউশন আর্কিটেক্ট। তিনি মেশিন লার্নিং টেকনিক্যাল ফিল্ড কমিউনিটির অংশ এবং গ্রাহকদের সাথে তাদের ML এবং AI যাত্রায় কাজ করতে পছন্দ করেন। প্রেম রোবোটিক্স সম্পর্কে উত্সাহী, তিনি একজন স্বায়ত্তশাসিত যানবাহন গবেষক এবং হিউস্টন এবং অন্যান্য স্থানে আলেক্সা-নিয়ন্ত্রিত বিয়ার পোরসও তৈরি করেছেন।

সারা জেন হং সুপ্ত মহাকাশে সহ-প্রতিষ্ঠাতা এবং প্রধান বিজ্ঞান কর্মকর্তা। তার পটভূমি মানব-কম্পিউটার মিথস্ক্রিয়া এবং মেশিন লার্নিং এর সংযোগস্থলে অবস্থিত। তিনি এর আগে সোনার (মার্চেক্স দ্বারা অর্জিত) এনএলপি গবেষণার নেতৃত্ব দিয়েছিলেন, যা কথোপকথনমূলক এআই স্পেসে ব্যবসায়িক পরিষেবা প্রদান করে। ওকুলাস, মজিলা মিক্সড রিয়েলিটি, এবং মাইক্রোসফ্ট হলোলেন্স থেকে পুরষ্কার এবং ফেলোশিপ পেয়ে তিনি একজন সম্মানিত AR/VR বিকাশকারী।

ড্যারিল বার্নহার্ট ল্যাটেন্ট স্পেসের সহ-প্রতিষ্ঠাতা এবং প্রধান প্রযুক্তি কর্মকর্তা। তিনি একজন অভিজ্ঞ ডেভেলপার যার GPU ত্বরণ, কম্পিউটার গ্রাফিক্স, বড় আকারের ডেটা এবং মেশিন লার্নিং এর অভিজ্ঞতা রয়েছে। অন্যান্য আবেগের মধ্যে রয়েছে গণিত, খেলার বিকাশ এবং তথ্যের অধ্যয়ন।

ইয়ান থম্পসন ল্যাটেন্ট স্পেসের প্রতিষ্ঠাতা এবং সিইও। ইয়ান হলেন একজন প্রকৌশলী এবং গবেষক "সংলগ্ন সম্ভাব্য" দ্বারা অনুপ্রাণিত — প্রযুক্তিগুলি আমাদের জীবনে একটি বড় প্রভাব ফেলবে। বর্তমানে নিরাপদ এবং সৃজনশীল AI তৈরিতে সহায়তা করার জন্য মাল্টিমডাল উপস্থাপনা শেখার সহজীকরণ এবং স্কেল করার উপর দৃষ্টি নিবদ্ধ করা হয়েছে। তিনি এর আগে গ্রাফিক্স/ভার্চুয়াল রিয়েলিটি (AltspaceVR, মাইক্রোসফট দ্বারা অর্জিত) এবং শিক্ষা/NLP (HSE) এ কোম্পানি তৈরি করতে সাহায্য করেছেন।

সূত্র: https://aws.amazon.com/blogs/machine-learning/how-latent-space-used-the-amazon-sagemaker-model-parallelism-library-to-push-the-frontiers-of-large- স্কেল-ট্রান্সফরমার/

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং ব্লগ