কিভাবে বিবর্তনীয় নির্বাচন আরো সক্ষম স্ব-ড্রাইভিং গাড়ি প্রশিক্ষণ দিতে পারে

উত্স নোড: 749900

ওয়েমোতে বিবর্তন

DeepMind এবং Waymo যে প্রথম পরীক্ষাগুলি আমাদের সেন্সর দ্বারা শনাক্ত করা পথচারী, সাইকেল চালক এবং মোটরসাইকেল আরোহীদের চারপাশে বাক্স তৈরি করে এমন একটি নেটওয়ার্ককে প্রশিক্ষণের সাথে জড়িত – একটি "অঞ্চল প্রস্তাব নেটওয়ার্ক" নামে পরিচিত। উদ্দেশ্য ছিল PBT দুটি পদক্ষেপে পথচারীদের সনাক্ত করার জন্য একটি নিউরাল নেট এর ক্ষমতা উন্নত করতে পারে কিনা তা তদন্ত করা: প্রত্যাহার (দৃশ্যে মোট পথচারীদের সংখ্যার উপর নিউরাল নেট দ্বারা চিহ্নিত পথচারীদের ভগ্নাংশ) এবং নির্ভুলতা (শনাক্ত করা পথচারীদের ভগ্নাংশ যা আসলে পথচারী, এবং মিথ্যা নয় "মিথ্যা ইতিবাচক")। Waymo-এর যানবাহনগুলি একাধিক নিউরাল নেট এবং অন্যান্য পদ্ধতি ব্যবহার করে এই রাস্তা ব্যবহারকারীদের সনাক্ত করে, কিন্তু এই পরীক্ষার লক্ষ্য ছিল এই একক নিউরাল নেটকে প্রশিক্ষিত করা যাতে 99% এরও বেশি প্রত্যাহার বজায় রাখা যায়, যখন জনসংখ্যা-ভিত্তিক প্রশিক্ষণ ব্যবহার করে মিথ্যা ইতিবাচকতা হ্রাস করা যায়।

এই পরীক্ষা থেকে আমরা অনেক কিছু শিখেছি। প্রথমত, আমরা আবিষ্কার করেছি যে নেটওয়ার্কগুলির জন্য আমাদের একটি বাস্তবসম্মত এবং দৃঢ় মূল্যায়ন তৈরি করা দরকার যাতে আমরা জানতে পারি যে বাস্তব বিশ্বের বিভিন্ন পরিস্থিতিতে স্থাপন করা হলে একটি নিউরাল নেট সত্যিই ভাল কাজ করবে কিনা। এই মূল্যায়ন প্রতিযোগিতার ভিত্তি তৈরি করেছে যা PBT একটি বিজয়ী নিউরাল নেটকে অন্যের উপর বাছাই করতে নিযুক্ত করে। নিউরাল নেটগুলি সাধারণত ভাল কাজ করে তা নিশ্চিত করতে এবং প্রশিক্ষণের সময় তারা যে উদাহরণগুলি দেখেছে তার উত্তরগুলি কেবল মুখস্থ না করে, আমাদের PBT প্রতিযোগিতা মূল্যায়ন উদাহরণগুলির একটি সেট ("বৈধকরণ সেট") ব্যবহার করে যা প্রশিক্ষণে ব্যবহৃত (যাদের থেকে আলাদা) "প্রশিক্ষণ সেট।") চূড়ান্ত কর্মক্ষমতা যাচাই করার জন্য, আমরা উদাহরণগুলির একটি তৃতীয় সেটও ব্যবহার করি ("মূল্যায়ন সেট") যা স্নায়ু জাল প্রশিক্ষণ বা প্রতিযোগিতায় কখনও দেখেনি।

দ্বিতীয়ত, আমরা শিখেছি যে ঘন ঘন বিবর্তনীয় প্রতিযোগিতাকে সমর্থন করার জন্য আমাদের দ্রুত মূল্যায়ন প্রয়োজন। গবেষকরা খুব কমই প্রশিক্ষণের সময় তাদের মডেলের মূল্যায়ন করেন এবং যখন তারা করেন, তখন মূল্যায়ন খুব কমই করা হয়। PBT প্রয়োজনীয় মডেলগুলি প্রতি 15 মিনিটে মূল্যায়ন করা হয়। এটি অর্জনের জন্য, আমরা শত শত বিতরণ করা মেশিন জুড়ে মূল্যায়ন সমান্তরাল করতে Google এর ডেটা সেন্টারগুলির সুবিধা নিয়েছি।

বিবর্তনীয় প্রতিযোগিতায় বৈচিত্র্যের শক্তি

এই পরীক্ষা-নিরীক্ষার সময়, আমরা লক্ষ্য করেছি যে PBT-এর শক্তিগুলির মধ্যে একটি - ভাল পারফরম্যান্সকারী নেটওয়ার্কগুলির বংশধরদের জন্য আরও সংস্থান বরাদ্দ করা - এছাড়াও একটি দুর্বলতা হতে পারে, কারণ PBT বর্তমানের জন্য অপ্টিমাইজ করে এবং দীর্ঘমেয়াদী ফলাফল বিবেচনা করতে ব্যর্থ হয়। এটি একটি সমস্যা হতে পারে কারণ এটি দেরীতে ব্লুমারদের অসুবিধা করে, তাই হাইপারপ্যারামিটার সহ নিউরাল নেট যা দীর্ঘমেয়াদে ভাল পারফর্ম করে তাদের পরিপক্ক এবং সফল হওয়ার সুযোগ থাকে না। এটি মোকাবেলা করার একটি উপায় হল জনসংখ্যার বৈচিত্র্য বাড়ানো, যা কেবলমাত্র একটি বৃহত্তর জনসংখ্যাকে প্রশিক্ষণ দিয়ে অর্জন করা যেতে পারে। যদি জনসংখ্যা যথেষ্ট বড় হয়, তাহলে দেরীতে প্রস্ফুটিত হাইপারপ্যারামিটার সহ নেটওয়ার্কগুলির বেঁচে থাকার এবং পরবর্তী প্রজন্মের মধ্যে ধরা পড়ার একটি বড় সুযোগ রয়েছে।

এই পরীক্ষাগুলিতে, আমরা "কুলুঙ্গি" নামক উপ-জনসংখ্যা তৈরি করে বৈচিত্র্য বাড়াতে সক্ষম হয়েছি, যেখানে নিউরাল নেটগুলিকে শুধুমাত্র তাদের নিজস্ব উপ-গোষ্ঠীর মধ্যে প্রতিযোগিতা করার অনুমতি দেওয়া হয়েছিল - দ্বীপগুলিতে বিচ্ছিন্ন হলে প্রজাতিগুলি কীভাবে বিবর্তিত হয় তার অনুরূপ। এছাড়াও আমরা "ফিটনেস শেয়ারিং" নামক একটি কৌশলের মাধ্যমে বৈচিত্র্যকে সরাসরি পুরস্কৃত করার চেষ্টা করেছি, যেখানে আমরা জনসংখ্যার সদস্যদের মধ্যে পার্থক্য পরিমাপ করি এবং প্রতিযোগিতায় আরও অনন্য নিউরাল নেটকে একটি প্রান্ত দিয়ে থাকি। বৃহত্তর বৈচিত্র্য PBT কে একটি বৃহত্তর হাইপারপ্যারামিটার স্থান অন্বেষণ করতে দেয়।

ফলাফল

PBT মডেল কর্মক্ষমতা নাটকীয় উন্নতি সক্ষম. উপরের পরীক্ষার জন্য, আমাদের PBT মডেলগুলি উচ্চ প্রত্যাহার হার বজায় রেখে তার হাতে-টিউন করা সমতুল্যের তুলনায় 24% দ্বারা মিথ্যা ইতিবাচক কমিয়ে উচ্চ নির্ভুলতা অর্জন করতে সক্ষম হয়েছিল। PBT-এর মতো বিবর্তনীয় পদ্ধতির একটি প্রধান সুবিধা হল যে তারা নির্বিচারে জটিল মেট্রিক্সকে অপ্টিমাইজ করতে পারে। ঐতিহ্যগতভাবে, নিউরাল নেট শুধুমাত্র সহজ এবং মসৃণ ক্ষতি ফাংশন ব্যবহার করে প্রশিক্ষিত করা যেতে পারে, যা আমরা সত্যিই যা যত্ন করি তার জন্য একটি প্রক্সি হিসাবে কাজ করে। PBT আমাদেরকে নিউরাল নেট প্রশিক্ষণের জন্য ব্যবহৃত আপডেট নিয়মের বাইরে যেতে সক্ষম করেছে, এবং আমাদের যত্নশীল বৈশিষ্ট্যগুলির জন্য অপ্টিমাইজ করে আরও জটিল মেট্রিক্সের দিকে যেতে সাহায্য করেছে, যেমন উচ্চ প্রত্যাহার হারের অধীনে সর্বোচ্চ নির্ভুলতা।

PBT সময় এবং সম্পদও বাঁচায়। PBT-প্রশিক্ষিত নেটগুলির সাথে আবিষ্কৃত হাইপারপ্যারামিটার সময়সূচী প্রশিক্ষণের অর্ধেক সময় এবং সংস্থান সহ Waymo এর আগের নেটকে ছাড়িয়ে গেছে। সামগ্রিকভাবে, পিবিটি র্যান্ডম সমান্তরাল অনুসন্ধান দ্বারা ব্যবহৃত অর্ধেক গণনামূলক সংস্থান ব্যবহার করে দক্ষতার সাথে আরও ভাল হাইপারপ্যারামিটার সময়সূচী আবিষ্কার করতে। এটি গবেষকদের জন্যও সময় বাঁচায়-ওয়েমোর প্রযুক্তিগত পরিকাঠামোতে সরাসরি PBT যুক্ত করার মাধ্যমে, কোম্পানি জুড়ে গবেষকরা একটি বোতাম ক্লিক করে এই পদ্ধতিটি প্রয়োগ করতে পারেন, এবং তাদের শেখার হার টিউন করতে কম সময় ব্যয় করতে পারেন। এই পরীক্ষাগুলি সমাপ্ত হওয়ার পর থেকে, PBT বিভিন্ন Waymo মডেলগুলিতে প্রয়োগ করা হয়েছে, এবং রাস্তার জন্য আরও সক্ষম যানবাহন তৈরি করতে সাহায্য করার জন্য অনেক প্রতিশ্রুতি রয়েছে৷


অবদানকারীরা: এখানে বর্ণিত কাজটি ছিল ওয়াইমোর ইউ-সিন চেন এবং ম্যাথিউ ডেভিন এবং ডিপমাইন্ডের আলী রাজাভি, অ্যাং লি, সিবন লি, ওলা স্পাইরা, প্রমোদ গুপ্ত এবং ওরিওল ভিনিয়ালসের মধ্যে একটি গবেষণা সহযোগিতা। প্রকল্পের উপদেষ্টাদের মধ্যে রয়েছে ম্যাক্স জাডারবার্গ, ভ্যালেনটিন ডালিবার্ড, মেইরে ফরচুনাটো এবং ডিপমাইন্ডের জ্যাকসন ব্রোশিয়ার।

সূত্র: https://deepmind.com/blog/article/how-evolutionary-selection-can-train-more-capable-self-driving-cars

সময় স্ট্যাম্প:

থেকে আরো গভীর মন - সর্বশেষ পোস্ট