ChatGLM-6B: একটি হালকা, ওপেন সোর্স চ্যাটজিপিটি বিকল্প

উত্স নোড: 2074009

ChatGLM-6B: একটি হালকা, ওপেন সোর্স চ্যাটজিপিটি বিকল্প
লেখকের ছবি
 

সম্প্রতি আমরা সকলেই LLM স্পেসে সাম্প্রতিক রিলিজগুলি দেখতে খুব কঠিন সময় পার করছি৷ গত কয়েক সপ্তাহে, বেশ কিছু ওপেন সোর্স ChatGPT বিকল্প জনপ্রিয় হয়ে উঠেছে। 

এবং এই নিবন্ধে আমরা সম্পর্কে শিখব চ্যাটজিএলএম সিরিজ এবং ChatGLM-6B, একটি ওপেন সোর্স এবং লাইটওয়েট ChatGPT বিকল্প। 

চল চলতে থাকি!

চীনের সিংহুয়া ইউনিভার্সিটির গবেষকরা ChatGLM সিরিজের মডেল তৈরিতে কাজ করেছেন যা GPT-3 এবং BLOOM-এর মতো অন্যান্য মডেলের সাথে তুলনীয় পারফরম্যান্স আছে।

ChatGLM হল একটি দ্বিভাষিক বৃহৎ ভাষার মডেল যা চীনা এবং ইংরেজি উভয় ভাষায় প্রশিক্ষিত। বর্তমানে, নিম্নলিখিত মডেলগুলি উপলব্ধ:

  • ChatGLM-130B: একটি ওপেন সোর্স এলএলএম
  • ChatGLM-100B: ওপেন সোর্স নয়, তবে শুধুমাত্র আমন্ত্রণ অ্যাক্সেসের মাধ্যমে উপলব্ধ
  • ChatGLM-6B: একটি হালকা ওপেন সোর্স বিকল্প

যদিও এই মডেলগুলি জেনারেটিভ প্রিট্রেইনড ট্রান্সফরমার (GPT) গোষ্ঠীর বৃহৎ ভাষার মডেলগুলির অনুরূপ বলে মনে হতে পারে, সাধারণ ভাষা মডেল (GLM) প্রাক-প্রশিক্ষণ কাঠামো কি তাদের ভিন্ন করে তোলে. আমরা পরবর্তী বিভাগে এই সম্পর্কে আরও জানব.

মেশিন লার্নিং-এ, আপনি GLM-কে এই নামেই জানেন সাধারণ রৈখিক মডেল, কিন্তু ChatGLM-এ GLM-এর অর্থ হল সাধারণ ভাষা মডেল

GLM প্রিট্রেনিং ফ্রেমওয়ার্ক

এলএলএম প্রাক প্রশিক্ষণ ব্যাপকভাবে অধ্যয়ন করা হয়েছে এবং এখনও সক্রিয় গবেষণার একটি ক্ষেত্র। আসুন GLM প্রিট্রেনিং এবং GPT-স্টাইল মডেলের মধ্যে মূল পার্থক্য বোঝার চেষ্টা করি।

মডেলের GPT-3 পরিবার শুধুমাত্র ডিকোডার-অটো রিগ্রেসিভ ল্যাঙ্গুয়েজ মডেলিং ব্যবহার করে। GLM-এ, অন্যদিকে, উদ্দেশ্যের অপ্টিমাইজেশন একটি হিসাবে প্রণয়ন করা হয় অটো রিগ্রেসিভ ফাঁকা ইনফিলিং সমস্যা.

 

ChatGLM-6B: একটি হালকা, ওপেন সোর্স চ্যাটজিপিটি বিকল্প
GLM | চিত্র উত্স
 

সহজ অর্থে, অটো রিগ্রেসিভ ফাঁকা ইনফিলিং টেক্সট একটি ক্রমাগত স্প্যান আউট ফাঁকা জড়িত, এবং তারপর ক্রমিকভাবে এই ব্ল্যাঙ্কিং টেক্সট পুনর্গঠন। সংক্ষিপ্ত মুখোশগুলি ছাড়াও, একটি দীর্ঘ মুখোশ রয়েছে যা এলোমেলোভাবে বাক্যের শেষ থেকে পাঠ্যের দীর্ঘ ফাঁকাগুলি সরিয়ে দেয়। এটি করা হয় যাতে মডেলটি প্রাকৃতিক ভাষা বোঝার পাশাপাশি প্রজন্মের কাজগুলিতে যুক্তিসঙ্গতভাবে ভাল করে।

আরেকটি পার্থক্য ব্যবহৃত মনোযোগের ধরন। বৃহৎ ভাষা মডেলের GPT গ্রুপ একমুখী মনোযোগ ব্যবহার করে, যেখানে LLM-এর GLM গ্রুপ ব্যবহার করে দ্বিমুখী মনোযোগ. মুখোশহীন প্রসঙ্গগুলির উপর দ্বিমুখী মনোযোগ ব্যবহার করে নির্ভরতা আরও ভালভাবে ক্যাপচার করতে পারে এবং প্রাকৃতিক ভাষা বোঝার কাজগুলিতে কর্মক্ষমতা উন্নত করতে পারে। 

GELU অ্যাক্টিভেশন

GLM-এ, GELU (Gaussian Error Linear Units) অ্যাক্টিভেশন ব্যবহার করা হয় ReLU অ্যাক্টিভেশনের পরিবর্তে [1]।

 

ChatGLM-6B: একটি হালকা, ওপেন সোর্স চ্যাটজিপিটি বিকল্প
GELU, ReLU, এবং ELU সক্রিয়করণ | চিত্র উত্স
 

GELU সক্রিয়করণ এবং সমস্ত ইনপুটের জন্য অ-শূন্য মান রয়েছে এবং নিম্নলিখিত ফর্ম রয়েছে [3]:

 

ChatGLM-6B: একটি হালকা, ওপেন সোর্স চ্যাটজিপিটি বিকল্প
 

GELU অ্যাক্টিভেশনটি ReLU অ্যাক্টিভেশনের তুলনায় কর্মক্ষমতা উন্নত করতে দেখা যায়, যদিও গণনাগতভাবে ReLU এর চেয়ে বেশি নিবিড়।

LLM-এর GLM সিরিজে, ChatGLM-130B যা ওপেন সোর্স এবং GPT-3-এর দা-ভিঞ্চি মডেলের পাশাপাশি পারফর্ম করে। যেমন উল্লেখ করা হয়েছে, এই নিবন্ধটি লেখার সময়, এখানে একটি ChatGLM-100B সংস্করণ রয়েছে, যা শুধুমাত্র আমন্ত্রণ অ্যাক্সেসের জন্য সীমাবদ্ধ।

ChatGLM-6B

ChatGLM-6B সম্বন্ধে নিম্নলিখিত বিশদগুলি শেষ ব্যবহারকারীদের কাছে আরও অ্যাক্সেসযোগ্য করতে:

  • প্রায় 6.2 বিলিয়ন প্যারামিটার আছে।
  • মডেলটি 1 ট্রিলিয়ন টোকেনে প্রাক-প্রশিক্ষিত - সমানভাবে ইংরেজি এবং চীনা থেকে।
  • পরবর্তীকালে, মানুষের প্রতিক্রিয়া সহ তত্ত্বাবধানে ফাইন-টিউনিং এবং শক্তিবৃদ্ধি শেখার মতো কৌশলগুলি ব্যবহার করা হয়।

চ্যাটজিএলএম-এর সুবিধা এবং সীমাবদ্ধতা নিয়ে আমাদের আলোচনা শেষ করা যাক:

উপকারিতা

একটি দ্বিভাষিক মডেল থেকে শুরু করে একটি ওপেন-সোর্স মডেল যা আপনি স্থানীয়ভাবে চালাতে পারেন, ChatGLM-6B-এর নিম্নলিখিত সুবিধা রয়েছে:

  • বেশিরভাগ মূলধারার বৃহৎ ভাষার মডেলগুলি ইংরেজি পাঠ্যের বৃহৎ কর্পোরার উপর প্রশিক্ষিত হয় এবং অন্যান্য ভাষার জন্য বৃহৎ ভাষার মডেলগুলি সাধারণ নয়। LLM-এর ChatGLM সিরিজ দ্বিভাষিক এবং চীনাদের জন্য একটি চমৎকার পছন্দ। মডেলটির ইংরেজি এবং চাইনিজ উভয় ভাষায় ভালো পারফরম্যান্স রয়েছে।
  • ChatGLM-6B ব্যবহারকারীর ডিভাইসের জন্য অপ্টিমাইজ করা হয়েছে। শেষ ব্যবহারকারীদের প্রায়ই তাদের ডিভাইসে সীমিত কম্পিউটিং সংস্থান থাকে, তাই উচ্চ-পারফরম্যান্স জিপিইউ-তে অ্যাক্সেস ছাড়াই স্থানীয়ভাবে এলএলএম চালানো প্রায় অসম্ভব হয়ে পড়ে। সঙ্গে INT4 পরিমাপ, ChatGLM-6B 6GB পর্যন্ত কম মেমরির প্রয়োজনে চলতে পারে। 
  • সংক্ষিপ্তকরণ এবং একক এবং মাল্টি-কোয়েরি চ্যাট সহ বিভিন্ন কাজগুলিতে ভালভাবে সম্পাদন করে।
  • অন্যান্য মূলধারার LLM-এর তুলনায় যথেষ্ট পরিমাণে কম সংখ্যক প্যারামিটার থাকা সত্ত্বেও, ChatGLM-6B 2048 পর্যন্ত প্রসঙ্গ দৈর্ঘ্য সমর্থন করে।

সীমাবদ্ধতা

এর পরে, আসুন ChatGLM-6B-এর কয়েকটি সীমাবদ্ধতার তালিকা করি:

  • যদিও ChatGLM একটি দ্বিভাষিক মডেল, ইংরেজিতে এর কার্যকারিতা সম্ভবত সাবঅপ্টিমাল। এটি প্রশিক্ষণে ব্যবহৃত নির্দেশাবলীর জন্য দায়ী করা যেতে পারে যা বেশিরভাগ চীনা ভাষায়।
  • কারণ ChatGLM-6B এর যথেষ্ট পরিমাণ রয়েছে কম পরামিতি অন্যান্য LLM যেমন BLOOM, GPT-3, এবং ChatGLM-130B এর তুলনায়, প্রসঙ্গটি খুব দীর্ঘ হলে কর্মক্ষমতা আরও খারাপ হতে পারে। ফলস্বরূপ, ChatGLM-6B অনেক বেশি সংখ্যক প্যারামিটার সহ মডেলের তুলনায় প্রায়ই ভুল তথ্য দিতে পারে।
  • ছোট ভাষা মডেল আছে সীমিত মেমরি ক্ষমতা. অতএব, মাল্টি-টার্ন চ্যাটে, মডেলের কর্মক্ষমতা সামান্য হ্রাস পেতে পারে।
  • পক্ষপাত, ভুল তথ্য এবং বিষাক্ততা হল সমস্ত LLM-এর সীমাবদ্ধতা, এবং ChatGLMও এগুলোর জন্য সংবেদনশীল।

পরবর্তী পদক্ষেপ হিসাবে, স্থানীয়ভাবে ChatGLM-6B চালান বা HuggingFace স্পেসে ডেমো ব্যবহার করে দেখুন। আপনি যদি LLM-এর কাজ সম্পর্কে আরও গভীরভাবে জানতে চান, তাহলে এখানে একটি তালিকা রয়েছে বড় ভাষা মডেল বিনামূল্যে কোর্স.

[১] জেড ডু, ওয়াই কিয়ান এট আল।, GLM: অটোরিগ্রেসিভ ব্ল্যাঙ্ক ইনফিলিং সহ সাধারণ ভাষা মডেল প্রিট্রেনিং, ACL 2022

[২] এ ঝেং, এক্স লিউ এট আল।, GLM-130B - একটি উন্মুক্ত দ্বিভাষিক পূর্বপ্রশিক্ষিত মডেল, ICML 2023 

[৩] ডি হেন্ড্রিক্স, কে জিম্পেল, গাউসিয়ান ত্রুটি লিনিয়ার ইউনিট (GELUs), arXiv, 2016

[4] ChatGLM-6B: HuggingFace Spaces-এ ডেমো

[5] গিটহাব রেপো
 
 
বালা প্রিয়া সি একজন প্রযুক্তিগত লেখক যিনি দীর্ঘ-ফর্ম সামগ্রী তৈরি করতে উপভোগ করেন। তার আগ্রহের ক্ষেত্রে গণিত, প্রোগ্রামিং এবং ডেটা সায়েন্স অন্তর্ভুক্ত। তিনি টিউটোরিয়াল, কিভাবে করতে হয় নির্দেশিকা এবং আরও অনেক কিছু লিখে ডেভেলপার সম্প্রদায়ের সাথে তার শেখা শেয়ার করেন।

সময় স্ট্যাম্প:

থেকে আরো কেডনুগেটস