মেটার নতুন এআই পৃথিবীর সবচেয়ে রহস্যময় প্রোটিন খুঁজে বের করছে

মেটার নতুন এআই পৃথিবীর সবচেয়ে রহস্যময় প্রোটিন খুঁজে বের করছে

উত্স নোড: 2022738

প্রতিটি প্রোটিন কাঠামো সমাধানের দৌড় কেবলমাত্র আরেকটি প্রযুক্তি জায়ান্টকে স্বাগত জানিয়েছে: মেটা এআই।

মেটা-এর একটি গবেষণা শাখা, যা ফেসবুক এবং ইনস্টাগ্রামের জন্য পরিচিত, দলটি একটি উচ্চাভিলাষী লক্ষ্য নিয়ে প্রোটিন আকৃতির ভবিষ্যদ্বাণী দৃশ্যে এসেছিল: প্রোটিন মহাবিশ্বের "অন্ধকার পদার্থ" বোঝার জন্য। প্রায়শই ব্যাকটেরিয়া, ভাইরাস এবং অন্যান্য অণুজীবের মধ্যে পাওয়া যায়, এই প্রোটিনগুলি আমাদের দৈনন্দিন পরিবেশে থাকে কিন্তু বিজ্ঞানের কাছে সম্পূর্ণ রহস্য।

“এগুলি এমন কাঠামো যা আমরা সবচেয়ে কম জানি। এগুলি অবিশ্বাস্যভাবে রহস্যময় প্রোটিন। আমি মনে করি তারা জীববিজ্ঞানে দুর্দান্ত অন্তর্দৃষ্টির সম্ভাবনা অফার করে। বলেছেন সিনিয়র লেখক ড. আলেকজান্ডার রিভস টু প্রকৃতি।

অন্য কথায়, তারা বায়োটেকনোলজির জন্য অনুপ্রেরণার ভান্ডার। তাদের গোপন আকার লুকানো নকশা জন্য চাবিকাঠি হয় দক্ষ জৈব জ্বালানী, অ্যান্টিবায়োটিক, এনজাইম, অথবা এমনকি সম্পূর্ণ নতুন জীব. পরিবর্তে, প্রোটিন ভবিষ্যদ্বাণীগুলির ডেটা এআই মডেলগুলিকে আরও প্রশিক্ষণ দিতে পারে।

মেটার নতুন এআই-এর কেন্দ্রস্থলে, ESMFold ডাব করা হয়েছে, এটি একটি বড় ভাষা মডেল। এটা পরিচিত শোনাতে পারে. এই মেশিন লার্নিং অ্যালগরিদমগুলি রকস্টার চ্যাটবট চ্যাটজিপিটি-এর মাধ্যমে বিশ্বকে আলোড়িত করেছে৷ সহজ প্রম্পট সহ সুন্দর প্রবন্ধ, কবিতা এবং গান তৈরি করার ক্ষমতার জন্য পরিচিত, ChatGPT—এবং সম্প্রতি চালু করা GPT-4- লক্ষ লক্ষ সর্বজনীন-উপলব্ধ পাঠ্যের সাথে প্রশিক্ষিত। অবশেষে AI অক্ষর, শব্দের ভবিষ্যদ্বাণী করতে এবং এমনকি সম্পূর্ণ অনুচ্ছেদ লিখতে শেখে এবং বিং-এর অনুরূপ চ্যাটবটের ক্ষেত্রে, ধরে রাখে কথোপকথন যে কখনও কখনও সামান্য বিরক্তিকর চালু.

নতুন গবেষণা, প্রকাশিত বিজ্ঞান, জীববিজ্ঞানের সাথে AI মডেলের সেতুবন্ধন। প্রোটিন 20টি "অক্ষর" দিয়ে তৈরি। বিবর্তনের জন্য ধন্যবাদ, বর্ণের ক্রম তাদের চূড়ান্ত আকার তৈরি করতে সাহায্য করে। যদি বড় ভাষার মডেলগুলি সহজেই ইংরেজি বর্ণমালার 26টি অক্ষরকে সুসঙ্গত বার্তায় রূপান্তর করতে পারে, তবে কেন তারা প্রোটিনের জন্যও কাজ করতে পারে না?

স্পয়লার: তারা করে। ESM-2 600 গ্রাফিক প্রসেসিং ইউনিট (GPUs) ব্যবহার করে মাত্র দুই সপ্তাহে প্রায় 2,000 মিলিয়ন প্রোটিন কাঠামোর পূর্বাভাসের মাধ্যমে বিস্ফোরিত হয়েছে। পূর্ববর্তী প্রচেষ্টার তুলনায়, AI প্রক্রিয়াটিকে 60 গুণ দ্রুততর করেছে। লেখকরা প্রতিটি কাঠামোকে ESM মেটাজেনমিক অ্যাটলাসে রেখেছেন, যা আপনি অন্বেষণ করতে পারেন এখানে.

বার্সেলোনা ন্যাশনাল সুপারকম্পিউটিং সেন্টারের (বিসিএস) ডাঃ আলফোনসো ভ্যালেন্সিয়ার কাছে, যিনি এই কাজের সাথে জড়িত ছিলেন না, বড় ভাষা সিস্টেম ব্যবহার করার সৌন্দর্য হল "ধারণাগত সরলতা" আরও উন্নয়নের সাথে, AI ভবিষ্যদ্বাণী করতে পারে "অ-প্রাকৃতিক প্রোটিনের গঠন, যা বিবর্তনীয় প্রক্রিয়াগুলি অন্বেষণ করেছে তার বাইরে পরিচিত মহাবিশ্বকে প্রসারিত করে।"

আসুন বিবর্তনের কথা বলি

ESMFold একটি সাধারণ নির্দেশিকা অনুসরণ করে: ক্রম কাঠামোর পূর্বাভাস দেয়।

আসুন পিছিয়ে যাই। প্রোটিনগুলি 20টি অ্যামিনো অ্যাসিড থেকে তৈরি হয় - প্রতিটি একটি "অক্ষর" - এবং একটি স্ট্রিংয়ের উপর স্পাইকি পুঁতির মতো তৈরি হয়। আমাদের কোষগুলি তারপরে তাদের সূক্ষ্ম বৈশিষ্ট্যগুলিতে আকৃতি দেয়: কিছু দেখতে পাতলা বিছানার চাদরের মতো, অন্যগুলি ঘোরাফেরা ক্যান্ডি বেতের মতো বা আলগা ফিতার মতো। প্রোটিনগুলি তখন একে অপরের সাথে একটি মাল্টিপ্লেক্স গঠন করতে পারে-উদাহরণস্বরূপ, একটি টানেল যা মস্তিষ্কের কোষের ঝিল্লি অতিক্রম করে যা তার ক্রিয়াগুলিকে নিয়ন্ত্রণ করে এবং এর ফলে আমরা কীভাবে চিন্তা করি এবং মনে রাখি তা নিয়ন্ত্রণ করে।

বিজ্ঞানীরা দীর্ঘদিন ধরে জানেন যে অ্যামিনো অ্যাসিড অক্ষরগুলি প্রোটিনের চূড়ান্ত কাঠামো গঠনে সহায়তা করে। একটি ভাষার অক্ষর বা অক্ষরের অনুরূপ, শুধুমাত্র কিছু অক্ষর যখন একত্রিত হয় তখন অর্থবোধক হয়। প্রোটিনের ক্ষেত্রে, এই ক্রমগুলি তাদের কার্যকরী করে তোলে।

"একটি প্রোটিনের জৈবিক বৈশিষ্ট্যগুলি বিবর্তনের মাধ্যমে নির্বাচিত হওয়া মিউটেশনগুলিকে তার ক্রমগুলিতে সীমাবদ্ধ করে," লেখক বলেছেন।

বর্ণমালার বিভিন্ন অক্ষর যেভাবে একত্রিত হয়ে শব্দ, বাক্য এবং অনুচ্ছেদ তৈরি করে সম্পূর্ণ অশ্লীল শব্দ না করে, প্রোটিন অক্ষরগুলিও একই কাজ করে। এমন একটি "বিবর্তনীয় অভিধান" রয়েছে যা শরীরকে বুঝতে পারে এমন কাঠামোতে অ্যামিনো অ্যাসিডগুলিকে স্ট্রিং করতে সাহায্য করে।

ভ্যালেন্সিয়া বলেন, "পরিচিত প্রোটিনগুলিতে অ্যামিনো অ্যাসিডের উত্তরাধিকারের যুক্তি হল একটি বিবর্তনীয় প্রক্রিয়ার ফলাফল যা তাদের একটি নির্দিষ্ট কাঠামোর দিকে পরিচালিত করেছে যার সাথে তারা একটি নির্দিষ্ট কার্য সম্পাদন করে।"

মিঃ এআই, আমাকে একটি প্রোটিন করুন

জীবনের তুলনামূলকভাবে সীমিত অভিধান বড় ভাষার মডেলের জন্য দারুণ খবর.

এই AI মডেলগুলি পরের শব্দের ভবিষ্যদ্বাণী শিখতে এবং তৈরি করতে সহজে উপলব্ধ পাঠ্যগুলিকে ঘষে। শেষ ফলাফল, GPT-3 এবং ChatGPT-এ দেখা যায়, আকর্ষণীয়ভাবে প্রাকৃতিক কথোপকথন এবং চমত্কার শৈল্পিক চিত্র।

মেটা এআই একই ধারণা ব্যবহার করেছে, কিন্তু প্রোটিন গঠন ভবিষ্যদ্বাণীর জন্য প্লেবুকটি পুনরায় লিখেছে। পাঠ্যের সাথে অ্যালগরিদম খাওয়ানোর পরিবর্তে, তারা পরিচিত প্রোটিনের প্রোগ্রামের ক্রম দিয়েছিল।

AI মডেল - যাকে ট্রান্সফরমার প্রোটিন ভাষা মডেল বলা হয় - 15 বিলিয়ন পর্যন্ত "সেটিংস" ব্যবহার করে প্রোটিনের সাধারণ আর্কিটেকচার শিখেছে। এটি সামগ্রিকভাবে প্রায় 65 মিলিয়ন বিভিন্ন প্রোটিন ক্রম দেখেছে।

তাদের পরবর্তী ধাপে দলটি এআই থেকে কিছু অক্ষর লুকিয়ে রেখেছিল, এটিকে শূন্যস্থান পূরণ করতে অনুরোধ করে। কত পরিমাণে স্বয়ংসম্পূর্ণ হবে, প্রোগ্রামটি শেষ পর্যন্ত শিখেছে কিভাবে বিভিন্ন অ্যামিনো অ্যাসিড একে অপরের সাথে সংযোগ (বা বিকর্ষণ) করে। শেষ পর্যন্ত, AI বিবর্তনীয় প্রোটিন সিকোয়েন্সের একটি স্বজ্ঞাত ধারণা তৈরি করেছে—এবং তারা কীভাবে কার্যকরী প্রোটিন তৈরি করতে একসঙ্গে কাজ করে।

অজানা মধ্যে

ধারণার প্রমাণ হিসাবে, দল দুটি সুপরিচিত পরীক্ষা সেট ব্যবহার করে ESMFold পরীক্ষা করেছে। এক, CAMEO, প্রায় 200টি কাঠামো জড়িত; অন্যটি, CASP14, 51টি সর্বজনীনভাবে প্রকাশিত প্রোটিন আকার রয়েছে।

সামগ্রিকভাবে, AI "অত্যাধুনিক কাঠামোর পূর্বাভাস নির্ভুলতা প্রদান করে," দলটি বলেছিল, "অর্ধেকেরও বেশি প্রোটিনের সাথে AlphaFold2 পারফরম্যান্সের সাথে মিলে যায়।" এটি নির্ভরযোগ্যভাবে বৃহৎ প্রোটিন কমপ্লেক্সকে মোকাবেলা করেছে-উদাহরণস্বরূপ, নিউরনের চ্যানেলগুলি যা তাদের ক্রিয়া নিয়ন্ত্রণ করে।

দলটি তখন তাদের AI-কে আরও এক ধাপ এগিয়ে নিয়ে যায়, মেটাজেনোমিক্সের জগতে প্রবেশ করে।

মেটাজেনোমগুলি তাদের মতো শোনাচ্ছে: ডিএনএ উপাদানের একটি হোজপজ। সাধারণত এগুলি আপনার পায়ের নীচের ময়লা, সমুদ্রের জল, বা এমনকি সাধারণভাবে অযোগ্য তাপীয় ভেন্টের মতো পরিবেশগত উত্স থেকে আসে। বেশিরভাগ জীবাণু কৃত্রিমভাবে ল্যাবগুলিতে জন্মানো যায় না, তবুও কিছুর আছে পরাশক্তি যেমন আগ্নেয়গিরির স্তরের তাপ প্রতিরোধ করে, যা তাদের এখনও অন্বেষণ করা বাকি একটি জৈবিক অন্ধকার পদার্থ করে তোলে।

কাগজটি প্রকাশিত হওয়ার সময়, AI এই প্রোটিনের 600 মিলিয়নেরও বেশি ভবিষ্যদ্বাণী করেছিল। সর্বশেষ প্রকাশের সাথে গণনা এখন 700 মিলিয়নেরও বেশি। ভবিষ্যদ্বাণীগুলি প্রায় দুই সপ্তাহের মধ্যে দ্রুত এবং ক্ষিপ্ত হয়ে এসেছিল। বিপরীতে, পূর্ববর্তী মডেলিং প্রচেষ্টা মাত্র একটি একক প্রোটিনের জন্য 10 মিনিট পর্যন্ত সময় নেয়।

প্রায় এক তৃতীয়াংশ প্রোটিন ভবিষ্যদ্বাণী উচ্চ আত্মবিশ্বাসের ছিল, পরমাণু-স্তরের স্কেলে জুম করার জন্য যথেষ্ট বিশদ সহ। যেহেতু প্রোটিন ভবিষ্যদ্বাণীগুলি শুধুমাত্র তাদের ক্রমগুলির উপর ভিত্তি করে ছিল, লক্ষ লক্ষ "এলিয়েন" পপ আপ হয়েছিল - প্রতিষ্ঠিত ডাটাবেস বা পূর্বে পরীক্ষিত কিছুর বিপরীতে কাঠামো।

"এটি আকর্ষণীয় যে ভবিষ্যদ্বাণীগুলির 10 শতাংশেরও বেশি প্রোটিনের জন্য যা অন্যান্য পরিচিত প্রোটিনের সাথে কোন সাদৃশ্য রাখে না," ভ্যালেন্সিয়া বলেছেন। এটি ভাষা মডেলের জাদু কারণে হতে পারে, যা অন্বেষণে অনেক বেশি নমনীয়-এবং সম্ভাব্য উৎপন্ন-আগে কার্যক্ষম প্রোটিন তৈরি করে এমন অনুক্রমের কথা শোনা যায়নি। "এটি বায়োটেকনোলজি এবং বায়োমেডিসিনে অ্যাপ্লিকেশন সহ নতুন সিকোয়েন্স এবং জৈব রাসায়নিক বৈশিষ্ট্য সহ প্রোটিনগুলির নকশার জন্য একটি নতুন স্থান," তিনি বলেছিলেন।

উদাহরণ হিসেবে, ইএসএমএফোল্ড প্রোটিনে একক-অক্ষর পরিবর্তনের পরিণতিগুলি বের করতে সম্ভাব্য সাহায্য করতে পারে। বিন্দু পরিব্যক্তি বলা হয়, এই আপাতদৃষ্টিতে সৌম্য সম্পাদনা শরীরে বিপর্যয় সৃষ্টি করে, যার ফলে বিধ্বংসী মেটাবলিক সিনড্রোম, সিকেল সেল অ্যানিমিয়া এবং ক্যান্সার হয়। একটি চর্বিহীন, গড় এবং তুলনামূলকভাবে সহজ AI গড় বায়োমেডিকাল গবেষণা ল্যাবে ফলাফল নিয়ে আসে, যখন AI এর গতির জন্য প্রোটিন আকারের ভবিষ্যদ্বাণীগুলিকে স্কেল করে।

বায়োমেডিসিন বাদ দিয়ে, আরেকটি আকর্ষণীয় ধারণা হল যে প্রোটিনগুলি বড় ভাষা মডেলগুলিকে এমনভাবে প্রশিক্ষণ দিতে পারে যেভাবে পাঠ্যগুলি পারে না। ভ্যালেন্সিয়া যেমন ব্যাখ্যা করেছেন, "একদিকে, প্রোটিন সিকোয়েন্সগুলি পাঠ্যের চেয়ে বেশি প্রাচুর্যপূর্ণ, আরও সংজ্ঞায়িত আকার রয়েছে এবং উচ্চতর পরিবর্তনশীলতা রয়েছে। অন্যদিকে, প্রোটিনগুলির একটি শক্তিশালী অভ্যন্তরীণ 'অর্থ' রয়েছে—অর্থাৎ, ক্রম এবং কাঠামোর মধ্যে একটি শক্তিশালী সম্পর্ক, একটি অর্থ বা সংগতি যা পাঠ্যগুলিতে অনেক বেশি বিস্তৃত, "দুটি ক্ষেত্রকে একটি গুণপূর্ণ প্রতিক্রিয়া লুপে সেতু করে।

চিত্র ক্রেডিট: মেটা এআই

সময় স্ট্যাম্প:

থেকে আরো এককতা হাব