জেনারেটিভ এআই-এর সংক্ষিপ্ত ইতিহাস - ডেটাভারসিটি

জেনারেটিভ এআই-এর সংক্ষিপ্ত ইতিহাস - ডেটাভারসিটি

উত্স নোড: 2505169
জেনারেটিভ এআইজেনারেটিভ এআই
Ole.CNX/Shutterstock

জেনারেটিভ এআই-এর একটি মোটামুটি সংক্ষিপ্ত ইতিহাস রয়েছে, প্রযুক্তিটি প্রাথমিকভাবে 1960 এর দশকে চ্যাটবট আকারে চালু করা হয়েছিল। এটি কৃত্রিম বুদ্ধিমত্তার একটি রূপ যা বর্তমানে উচ্চ-মানের পাঠ্য, ছবি, ভিডিও, অডিও এবং সিন্থেটিক ডেটা সেকেন্ডে তৈরি করতে পারে। যাইহোক, এটি 2014 সাল পর্যন্ত ছিল না, যখন জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN) এর ধারণাটি চালু করা হয়েছিল, সেই জেনারেটিভ এআই এমনভাবে বিকশিত হয়েছিল যে ছবি, ভিডিও এবং অডিও তৈরি করতে সক্ষম হয়েছে যা সত্যিকারের মানুষের রেকর্ডিং বলে মনে হয়।

বর্তমানে, জেনারেটিভ এআই হল চ্যাটজিপিটি এবং এর বিভিন্নতার একটি প্রধান উপাদান।

1950s

জেনারেটিভ এআই এর উপর ভিত্তি করে মেশিন লার্নিং এবং গভীর শিক্ষার অ্যালগরিদম। চেকার বাজানোর জন্য আর্থার স্যামুয়েল 1952 সালে প্রথম মেশিন লার্নিং অ্যালগরিদম তৈরি করেছিলেন - তিনি "মেশিন লার্নিং" শব্দটিও নিয়ে এসেছিলেন।

প্রশিক্ষিত হতে সক্ষম প্রথম "নিউরাল নেটওয়ার্ক" বলা হয়েছিল পারসেপ্ট্রন, এবং 1957 সালে কর্নেল ইউনিভার্সিটির মনোবিজ্ঞানী ফ্রাঙ্ক রোজেনব্ল্যাট দ্বারা বিকশিত হয়েছিল। পারসেপ্ট্রনের নকশাটি আধুনিক নিউরাল নেটওয়ার্কগুলির সাথে খুব মিল ছিল কিন্তু এতে কেবলমাত্র "একটি" স্তর ছিল যাতে সামঞ্জস্যযোগ্য থ্রেশহোল্ড এবং ওজন থাকে, যা ইনপুট এবং আউটপুট স্তরগুলিকে আলাদা করে। এই সিস্টেমটি ব্যর্থ হয়েছে কারণ এটি খুব সময়সাপেক্ষ ছিল।

1960 এবং 1970 এর দশক

জেনারেটিভ এআই-এর প্রথম ঐতিহাসিক উদাহরণকে এলিজা বলা হয়। এটি চ্যাটবটগুলির একটি প্রাথমিক সংস্করণ হিসাবে বিবেচিত হতে পারে। এটি 1961 সালে জোসেফ ওয়েজেনবাম দ্বারা তৈরি করা হয়েছিল। Eliza একটি কথা বলা কম্পিউটার প্রোগ্রাম যা একজন মানুষের প্রতিক্রিয়া জানাবে, একটি প্রাকৃতিক ভাষা ব্যবহার করে এবং সহানুভূতিশীল শব্দের জন্য ডিজাইন করা প্রতিক্রিয়াগুলি ব্যবহার করে।

1960 এবং 70 এর দশকে, কম্পিউটার ভিশন এবং কিছু মৌলিক স্বীকৃতির নিদর্শনগুলির জন্য ভিত্তি গবেষণা করা হয়েছিল। অ্যান বি লেস্ক, লিওন ডি. হারমন এবং এজে গোল্ডস্টেইন এর যথার্থতা উল্লেখযোগ্যভাবে বৃদ্ধি পেলে মুখের স্বীকৃতি একটি নাটকীয়ভাবে এগিয়ে যায় (মানব-মুখ শনাক্তকরণে ম্যান-মেশিনের মিথস্ক্রিয়া, 1972)। দলটি 21টি নির্দিষ্ট মার্কার তৈরি করেছে, যার মধ্যে ঠোঁটের পুরুত্ব এবং চুলের রঙ স্বয়ংক্রিয়ভাবে মুখ শনাক্ত করার মতো বৈশিষ্ট্য রয়েছে। 

1970-এর দশকে, সেপ্পো লিনাইনমা ​​দ্বারা ব্যাকপ্রোপাগেশন ব্যবহার করা শুরু হয়। শব্দটি "backpropagation” শেখার প্রক্রিয়ার অংশ হিসাবে ত্রুটি, পশ্চাদপদ, প্রচারের একটি প্রক্রিয়া। জড়িত পদক্ষেপগুলি হল:

  1. আউটপুট শেষ প্রক্রিয়া
  2. পিছিয়ে বিতরণের জন্য পাঠানো হয়েছে 
  3. প্রশিক্ষণ এবং শেখার জন্য নেটওয়ার্কের স্তরগুলির মধ্য দিয়ে সরানো হয়েছে৷ 

(ব্যাকপ্রোপগেশন গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণে ব্যবহৃত হয়।) 

প্রথম এআই উইন্টার মেশিন লার্নিং এবং কৃত্রিম বুদ্ধিমত্তাকে আলাদা করে

প্রথম এআই শীতকাল শুরু এবং শেষ মোটামুটিভাবে 1973 থেকে 1979 - প্রতিশ্রুতি দেওয়া হয়েছিল, কিন্তু প্রত্যাশা রাখা হয়নি। যে সংস্থাগুলি কৃত্রিম বুদ্ধিমত্তার (Darpa, NRC, এবং ব্রিটিশ সরকার) গবেষণার জন্য অর্থায়ন করেছিল তারা হঠাৎ করে এর বিকাশে অগ্রগতির অভাবের কারণে বিব্রত হয়েছিল। 

যাইহোক, মেশিন লার্নিং (ML) বিকশিত হতে থাকে। এই কারণে নয় যে এটি এখনও সরকারী তহবিল গ্রহণ করছিল, কিন্তু কারণ মেশিন লার্নিং একটি প্রতিক্রিয়া সরঞ্জাম হিসাবে ব্যবসার জন্য অত্যন্ত দরকারী হয়ে উঠেছে। মেশিন লার্নিং AI এর জন্য একটি প্রশিক্ষণ কৌশল হিসাবে শুরু হয়েছিল, কিন্তু এটি আবিষ্কৃত হয়েছিল যে এটি ফোনের উত্তর দেওয়া এবং উপযুক্ত ব্যক্তির কাছে কল স্থানান্তর করার মতো সাধারণ কাজগুলি সম্পাদন করতেও ব্যবহার করা যেতে পারে। যদিও ML প্রোগ্রামগুলি একটি বুদ্ধিমান কথোপকথন চালিয়ে যেতে সক্ষম নাও হতে পারে, তারা মৌলিক, কিন্তু খুব দরকারী কাজগুলি সম্পাদন করতে পারে। ব্যবসায়গুলি এমন একটি সরঞ্জাম ছেড়ে দিতে আগ্রহী ছিল না যা ব্যয়-দক্ষ এবং দরকারী উভয়ই ছিল।

ব্যবসাগুলি মেশিন লার্নিংয়ের বিকাশের জন্য তাদের নিজস্ব গবেষণার জন্য অর্থায়ন বেছে নিয়েছে এবং প্রাক্তন গবেষকরা নিজেদেরকে একটি পৃথক শিল্পে পুনর্গঠিত করেছেন – 1990 এর দশকে আবার AI এর সাথে একীভূত হওয়া পর্যন্ত।

যদিও নিউরাল নেটওয়ার্কগুলি 1944 সালে শিকাগো বিশ্ববিদ্যালয়ের দুই গবেষক, ওয়ারেন ম্যাককুলো এবং ওয়াল্টার পিটস দ্বারা প্রস্তাবিত হয়েছিল, প্রথম কার্যকরী "বহুস্তরযুক্ত" কৃত্রিম নিউরাল নেটওয়ার্ক, কগনিট্রন, 1975 সালে কুনিহিকো ফুকুশিমা দ্বারা বিকশিত হয়েছিল।

নিউরাল নেটওয়ার্ক মেশিন লার্নিং এবং ডিপ লার্নিং ব্যবহারের জন্য একটি ভিত্তি স্থাপন করে। তাদের নকশা ইনপুট এবং আউটপুট স্তর সমর্থন করে, এবং তাদের মধ্যে লুকানো স্তরগুলি ইনপুট ডেটা রূপান্তর করতে ব্যবহৃত হয়, এটি আউটপুট স্তরের জন্য উপযোগী করে তোলে। এই নতুন ডিজাইনের সাথে, মুখের এবং বক্তৃতা শনাক্তকরণ নাটকীয়ভাবে উন্নত হয়েছে। লুকানো স্তর গভীর শিক্ষার ভিত্তি প্রদান করে।

1979 সালে কুনহিকো ফুকুশিমা একটি শ্রেণিবদ্ধ, বহুস্তরযুক্ত কৃত্রিম নিউরাল নেটওয়ার্ক গড়ে তোলার পরামর্শ দেন, যার নাম তিনি দিয়েছেন নিওকগনিট্রন. এটি ছিল প্রথম গভীর শিক্ষার নিউরাল নেটওয়ার্ক। তার নকশাটি কম্পিউটারের ভিজ্যুয়াল প্যাটার্নগুলি এবং আরও নির্দিষ্টভাবে, হাতে লেখা অক্ষর সনাক্তকরণ শিখতে শেখার ক্ষমতাকে সমর্থন করেছিল। তার নকশাটি উল্লেখযোগ্য ডেটা ম্যানুয়ালি সামঞ্জস্য করার অনুমতি দেয়, যা মানুষকে নির্দিষ্ট সংযোগের "ওজন" বাড়াতে দেয়।

1980 এবং দ্বিতীয় এআই শীতকালীন

1982 সালে, জন হপফিল্ড আরেকটি আবিষ্কার করেছিলেন, যিনি নিউরাল নেটওয়ার্কের একটি নতুন ফর্ম তৈরি করেছিলেন - হপফিল্ড নেট - একটি সম্পূর্ণ ভিন্ন পদ্ধতি ব্যবহার করে। হপফিল্ড নেট অতীতের সিস্টেমের তুলনায় মানুষের মস্তিষ্কের মতো স্মৃতি সংগ্রহ করে এবং পুনরুদ্ধার করে।

যাইহোক, দ্বিতীয় এআই শীতকাল মোটামুটিভাবে 1984 সালে শুরু হয়েছিল এবং 1990 সাল পর্যন্ত অব্যাহত ছিল এবং কৃত্রিম বুদ্ধিমত্তার পাশাপাশি জেনারেটিভ AI এর বিকাশকে ধীর করে দেয়। ভাঙা প্রতিশ্রুতি এবং ভাঙ্গা প্রত্যাশা নিয়ে রাগ এবং হতাশা এত তীব্র ছিল, "কৃত্রিম বুদ্ধিমত্তা" শব্দটি ছদ্মবিজ্ঞানের মর্যাদা গ্রহণ করেছিল এবং প্রায়শই অবজ্ঞার সাথে কথা বলা হত। এআই সম্পর্কে সংশয়বাদের একটি বিস্তৃত ধারণা তৈরি হয়েছিল। দুর্ভাগ্যবশত, অধিকাংশ AI এবং গভীর শিক্ষার গবেষণার জন্য অর্থায়ন করা হয়েছে।

1986 সালে, ডেভিড রুমেলহার্ট এবং তার দল পরিচয় করিয়ে দেয় একটি নতুন উপায় 1970-এর দশকে বিকশিত ব্যাকপ্রপাগেশন কৌশল ব্যবহার করে নিউরাল নেটওয়ার্কের প্রশিক্ষণ।

1980 এর দশকের শেষদিকে, এমওএস (মেটাল অক্সাইড সেমিকন্ডাক্টর, 1959 সালে বিকশিত) VLSI এর সাথে একীভূত হয়েছিল (খুব বড় স্কেল ইন্টিগ্রেশন) এবং আরও ব্যবহারিক, আরও দক্ষ কৃত্রিম নিউরাল নেটওয়ার্ক সরবরাহ করেছে। এই সংমিশ্রণকে বলা হয়েছিল একটি পরিপূরক এমওএস (বা একটি CMOS)।

গভীর শিক্ষা 1989 সালে একটি কার্যকরী বাস্তবতায় পরিণত হয়েছিল, যখন ইয়ান লেকুন এবং তার দল হাতে লেখা জিপ কোডগুলি চিনতে নিউরাল নেটওয়ার্কগুলির সাথে একটি ব্যাকপ্রোপগেশন অ্যালগরিদম ব্যবহার করেছিল।

গভীর জ্ঞানার্জন ডেটা প্রক্রিয়া করতে এবং মানুষের চিন্তাভাবনা প্রক্রিয়া অনুকরণ করতে অ্যালগরিদম ব্যবহার করে। এটি ডেটা প্রক্রিয়াকরণ, বস্তুকে দৃশ্যমানভাবে চিনতে এবং মানুষের বক্তৃতা বোঝার জন্য ডিজাইন করা অ্যালগরিদমের স্তরগুলি নিয়োগ করে৷ পূর্ববর্তী স্তরের আউটপুট সহ পরবর্তী স্তরের জন্য প্রয়োজনীয় ইনপুট উপস্থাপন করে ডেটা প্রতিটি স্তরের মধ্য দিয়ে চলে। গভীর শিক্ষায়, অতিরিক্ত স্তরগুলি যেগুলি ব্যবহার করা হয় তা উচ্চ-স্তরের "বিমূর্ততা" প্রদান করে, যা আরও ভাল ভবিষ্যদ্বাণী এবং আরও ভাল শ্রেণীবিভাগ তৈরি করে। যত বেশি স্তর ব্যবহার করা হবে, তত ভাল ভবিষ্যদ্বাণীর সম্ভাবনা তত বেশি। 

গভীর শিক্ষা একটি অত্যন্ত দরকারী প্রশিক্ষণ প্রক্রিয়ায় পরিণত হয়েছে, যা ইমেজ শনাক্তকরণ, ভয়েস রিকগনিশন এবং বিপুল পরিমাণ ডেটা প্রক্রিয়াকরণকে সমর্থন করে।

1990 এবং AI গবেষণা পুনরুদ্ধার

কারণ কৃত্রিম বুদ্ধিমত্তার জন্য তহবিল আবার 1990 এর দশকে শুরু হয়েছিল, মেশিন লার্নিং, একটি প্রশিক্ষণ প্রক্রিয়া হিসাবে, তহবিলও পেয়েছিল। মেশিন লার্নিং ইন্ডাস্ট্রি দ্বিতীয় এআই শীতের মাধ্যমে নিউরাল নেটওয়ার্ক নিয়ে গবেষণা চালিয়ে গিয়েছিল এবং 1990 এর দশকে উন্নতি লাভ করতে শুরু করেছিল। মেশিন লার্নিং-এর ক্রমাগত সাফল্যের বেশিরভাগই ছিল চরিত্র এবং বক্তৃতা শনাক্তকরণের ব্যবহার, ইন্টারনেটের অপ্রতিরোধ্য বৃদ্ধি এবং ব্যক্তিগত কম্পিউটারের ব্যবহার।

কাগজে "বুস্টিং" ধারণাটি 1990 সালে ভাগ করা হয়েছিল দুর্বল শেখার ক্ষমতার শক্তি, রবার্ট শ্যাপায়ার দ্বারা। তিনি ব্যাখ্যা করেছিলেন যে দুর্বল শিক্ষার্থীদের একটি সেট একক শক্তিশালী শিক্ষার্থী তৈরি করতে পারে। বুস্টিং অ্যালগরিদম তত্ত্বাবধানে শেখার প্রক্রিয়া চলাকালীন পক্ষপাত কমিয়ে আনুন, এবং মেশিন লার্নিং অ্যালগরিদমগুলি অন্তর্ভুক্ত করুন যেগুলি বেশ কিছু দুর্বল শিক্ষার্থীকে কয়েকটি শক্তিশালীতে রূপান্তর করতে সক্ষম। (দুর্বল শিক্ষার্থীরা সময়ের সামান্য 50% এর বেশি সঠিক ভবিষ্যদ্বাণী করে।) 

কম্পিউটার গেমিং ইন্ডাস্ট্রি জেনারেটিভ এআই-এর বিবর্তনে সাহায্য করার জন্য উল্লেখযোগ্য পরিমাণে ক্রেডিট প্রাপ্য। 3D গ্রাফিক্স কার্ড, গ্রাফিক প্রসেসিং ইউনিট (GPUs) এর অগ্রদূত, প্রথম 1990 এর দশকের শুরুতে ভিডিও গেমগুলিতে গ্রাফিক্সের উপস্থাপনা উন্নত করার জন্য চালু করা হয়েছিল। 

1997 সালে, Juergen Schmidhuber এবং Sepp Hochreiter "দীর্ঘ স্বল্পমেয়াদী স্মৃতি” (LSTM ) পুনরাবৃত্ত নিউরাল নেটওয়ার্কের সাথে ব্যবহার করা হবে। বর্তমানে, বেশিরভাগ বক্তৃতা স্বীকৃতি প্রশিক্ষণ এই কৌশলটি ব্যবহার করে। LSTM শেখার কাজগুলিকে সমর্থন করে যেগুলির জন্য একটি মেমরির প্রয়োজন হয় যাতে হাজার হাজার ধাপ আগে ঘটে যাওয়া ইভেন্টগুলি কভার করা হয় এবং যা কথোপকথনের সময় প্রায়ই গুরুত্বপূর্ণ।

এনভিডিয়া (অনেক গেম প্রযুক্তির অগ্রগতির জন্য দায়ী) 1999 সালে একটি উন্নত জিপিইউ তৈরি করেছে, যার কম্পিউটেশনাল গতি এক হাজার বৃদ্ধি পেয়েছে। তাদের প্রথম জিপিইউ বলা হয় GeForce 256

এটি একটি আশ্চর্যজনক উপলব্ধি ছিল যে জিপিইউগুলি ভিডিও গেমের চেয়ে বেশি ব্যবহার করা যেতে পারে। আশ্চর্যজনকভাবে ইতিবাচক ফলাফল সহ কৃত্রিম নিউরাল নেটওয়ার্কগুলিতে নতুন জিপিইউ প্রয়োগ করা হয়েছিল। জিপিইউ একটি সেন্ট্রাল প্রসেসিং ইউনিটের তুলনায় চিপ প্রতি প্রসেসরের সংখ্যা প্রায় 200 গুণ ব্যবহার করে, মেশিন লার্নিংয়ে বেশ উপযোগী হয়ে উঠেছে। (কেন্দ্রীয় প্রক্রিয়াকরণ ইউনিট, বা CPUs, তবে, আরও নমনীয়, এবং গণনার একটি বিস্তৃত নির্বাচন সম্পাদন করে, যখন GPU গুলি নির্দিষ্ট ব্যবহারের ক্ষেত্রে তৈরি করা হয়।)

2000s

ফেস রিকগনিশন গ্র্যান্ড চ্যালেঞ্জ, ক উন্নতি করার জন্য প্রচার ফেসিয়াল রিকগনিশন প্রযুক্তি, মার্কিন সরকার দ্বারা অর্থায়ন করা হয়েছিল এবং 2004 এবং 2006 থেকে সংঘটিত হয়েছিল। এর ফলে নতুন মুখ শনাক্তকরণ কৌশল এবং মুখ শনাক্তকরণ কার্যকারিতা রয়েছে। নতুন বিকশিত অ্যালগরিদমগুলি 2002 সালে ব্যবহৃত মুখ শনাক্তকরণ অ্যালগরিদমগুলির তুলনায় দশগুণ বেশি নির্ভুল ছিল৷ কিছু অ্যালগরিদম এমনকি অভিন্ন যমজদের মধ্যে পার্থক্য সনাক্ত করতে পারে৷

2010 এবং ভার্চুয়াল সহকারী এবং চ্যাটবট

4 অক্টোবর, 2011-এ, সিরি, প্রথম ডিজিটাল ভার্চুয়াল সহকারী যা কার্যকরী হিসাবে বিবেচিত হয়েছিল, iPhone 4S এর সাথে একটি পরিষেবা হিসাবে এসেছিল। এর ব্যবহার chatbots এছাড়াও উল্লেখযোগ্যভাবে বৃদ্ধি. 

2014 সালে, জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN) ধারণাটি উপস্থাপন করা হয়েছিল। GAN ব্যবহার করা হয় ছবি, ভিডিও এবং অডিও তৈরি করতে যা বাস্তব পরিস্থিতির খাঁটি রেকর্ডিংয়ের মতো মনে হয়।          

একটি জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক ব্যবহার করে দুটি নিউরাল নেটওয়ার্ক যেগুলির একযোগে প্রতিপক্ষের প্রশিক্ষণ রয়েছে: একটি নিউরাল নেটওয়ার্ক একটি বৈষম্যকারী এবং অন্যটি জেনারেটর হিসাবে কাজ করে। বৈষম্যকারীকে তৈরি করা ডেটা এবং বাস্তব ডেটার মধ্যে পার্থক্য করার জন্য প্রশিক্ষণ দেওয়া হয়েছে। জেনারেটর সিন্থেটিক ডেটা তৈরি করে এবং বাস্তব ডেটা অনুকরণ করার চেষ্টা করে। প্র্যাকটিস জেনারেটরকে বৈষম্যকারীকে ঠকাতে আরও বেশি বাস্তবসম্মত রেকর্ডিং তৈরি করতে আরও ভাল হতে দেয়। GAN গুলি সিন্থেটিক ডেটা তৈরি করতে পারে যা কৃত্রিম হিসাবে চিহ্নিত করা কঠিন, যদি অসম্ভব না হয়।

2020 এবং স্মার্ট চ্যাটবট

2022 সালের নভেম্বরে, OpenAI ChatGPT প্রবর্তন করে, একটি জেনারেটিভ AI এর সাথে বড় ভাষার মডেল. ChatGPT, এবং এর বৈচিত্র্য, কৃত্রিম বুদ্ধিমত্তার একটি নতুন স্তর অর্জন করেছে। এই "স্মার্ট চ্যাটবট" গবেষণা সম্পাদন করতে পারে, যুক্তিসঙ্গতভাবে ভাল লেখার সমর্থন করতে পারে এবং বাস্তবসম্মত ভিডিও, অডিও এবং ছবি তৈরি করতে পারে।

বৃহৎ ভাষার মডেলের সাথে জেনারেটিভ এআই প্রশিক্ষণের সমন্বয়ের ফলে কৃত্রিম বুদ্ধিমত্তা তৈরি হয়েছে যা চিন্তা করার এবং যুক্তি করার ক্ষমতা রাখে। তাদের "কল্পনা করার" ক্ষমতাও থাকতে পারে। চ্যাটজিপিটি হ্যালুসিনেশনের অভিযোগে অভিযুক্ত হয়েছে, যা কল্পনার ব্যবহার হিসাবে ব্যাখ্যা করা যেতে পারে।

সময় স্ট্যাম্প:

থেকে আরো ডেটাভার্সিটি