OCR এর জন্য ইমেজ প্রসেসিং এবং বাউন্ডিং বক্স

উত্স নোড: 1638268

প্রযুক্তি বিকশিত হতে থাকে, এবং আমরা তাই করি। কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিংয়ের আবির্ভাবের সাথে, ফোকাস অটোমেশনের দিকে সরে গেছে। বলা হচ্ছে, এই উদীয়মান প্রবণতাগুলির প্রয়োগগুলি অধ্যয়ন এবং অন্বেষণ করার জন্য বিভিন্ন কম্পিউটার বিজ্ঞান শাখা চালু করা হয়েছে।

এরকম একটি উদাহরণ হল চিত্র প্রক্রিয়াজাতকরণ. সহজ ভাষায়, এটি অর্থপূর্ণ তথ্য আঁকতে চিত্রগুলি অন্বেষণকে বোঝায়। যদিও এটি অর্জনের জন্য বেশ কয়েকটি কৌশল উপলব্ধ, সবচেয়ে বেশি ব্যবহৃত হয় - আবদ্ধ বাক্স.

এই ব্লগটি বাউন্ডিং বাক্সের বিভিন্ন দিক নিয়ে আলোচনা করে। এটিতে তারা কী, তারা কীভাবে চিত্র প্রক্রিয়াকরণে কাজ করে, সেগুলিকে সংজ্ঞায়িত করে এমন পরামিতিগুলি, সেগুলিকে নির্দিষ্ট করে এমন নিয়ম, সাধারণ ব্যবহারের ক্ষেত্রে, সতর্কতা এবং সর্বোত্তম অনুশীলনগুলি এবং আরও অনেক কিছু অন্তর্ভুক্ত করে৷

এর মধ্যে ডুব যাক।

ইমেজ প্রসেসিং বলতে বোঝায় একটি ইমেজকে উন্নত করার জন্য বা এর সাথে সম্পর্কিত বৈশিষ্ট্য বা গুণাবলী থেকে কিছু মূল্যবান অন্তর্দৃষ্টি বের করার জন্য কিছু ক্রিয়াকলাপ সম্পাদন করা। আজ, ইমেজ প্রসেসিং ইঞ্জিনিয়ারিং এবং কম্পিউটার প্রযুক্তি অধ্যয়নের গবেষণার একটি প্রাথমিক ক্ষেত্র।

ইমেজ প্রসেসিং দুটি পদ্ধতি ব্যবহার করে করা যেতে পারে - এনালগ ইমেজ প্রসেসিং এবং ডিজিটাল ইমেজ প্রসেসিং।

অ্যানালগ ইমেজ প্রসেসিং এর মধ্যে প্রিন্ট আউট এবং ফটোগ্রাফের হার্ড কপি ব্যবহার করে ছবি বিশ্লেষণ এবং ম্যানিপুলেট করা হয়। চিত্র বিশ্লেষকরা এই চিত্রের অনুলিপিগুলিকে ব্যাখ্যা করতে এবং অর্থপূর্ণ ফলাফলগুলি বের করতে বিভিন্ন পদ্ধতি ব্যবহার করে।

ডিজিটাল ইমেজ প্রসেসিং ডিজিটাল ইমেজ ব্যবহার করে এবং কম্পিউটার ব্যবহার করে তাদের ব্যাখ্যা করে। এটি ডিজিটাল সিগন্যাল প্রসেসিংয়ের একটি উপ-শ্রেণি এবং ডিজিটাল ছবিগুলি প্রক্রিয়া করার জন্য অ্যালগরিদম ব্যবহার করে। এটি অ্যানালগ চিত্র প্রক্রিয়াকরণের উপর সুবিধা প্রদান করে, যেমন অ্যালগরিদম প্রক্রিয়াকরণে শব্দ এবং বিকৃতি রোধ করতে।

ডিজিটাল ইমেজ প্রসেসিং-এর মেডিসিন, ম্যানুফ্যাকচারিং, ইকমার্স এবং আরও অনেক কিছুর ক্ষেত্রে বেশ কিছু অ্যাপ্লিকেশন রয়েছে।


ছবি প্রক্রিয়াকরণে বাউন্ডিং বক্স

শুরুতে, বাউন্ডিং বক্স হল একটি কাল্পনিক আয়তক্ষেত্রাকার বাক্স যাতে একটি বস্তু এবং ডেটা পয়েন্টের একটি সেট থাকে। ডিজিটাল ইমেজ প্রসেসিং এর প্রেক্ষাপটে, বাউন্ডিং বক্স X এবং Y অক্ষের সীমানার স্থানাঙ্কগুলিকে নির্দেশ করে যা একটি চিত্রকে ঘিরে রাখে। এগুলি একটি লক্ষ্য সনাক্ত করতে এবং বস্তু সনাক্তকরণের জন্য একটি রেফারেন্স হিসাবে পরিবেশন করতে এবং বস্তুর জন্য একটি সংঘর্ষ বাক্স তৈরি করতে ব্যবহৃত হয়।

বাউন্ডিং বক্স কি?

বাউন্ডিং বাক্সগুলি হল মূল উপাদান এবং ভিডিও টীকা প্রকল্পগুলির জন্য প্রাথমিক চিত্র প্রক্রিয়াকরণ সরঞ্জামগুলির মধ্যে একটি৷ সারমর্মে, একটি বাউন্ডিং বক্স হল একটি কাল্পনিক আয়তক্ষেত্র যা একটি মেশিন লার্নিং প্রকল্পের প্রয়োজনীয়তার একটি অংশ হিসাবে একটি ছবিতে বস্তুর রূপরেখা দেয়৷ কাল্পনিক আয়তক্ষেত্রাকার ফ্রেম ছবিটিতে বস্তুটিকে ঘিরে রাখে।

বাউন্ডিং বাক্সগুলি বস্তুর অবস্থান, এর শ্রেণী এবং আত্মবিশ্বাস নির্দিষ্ট করে যা সম্ভাব্যতার মাত্রা বলে যে বস্তুটি আসলে বাউন্ডিং বাক্সে উপস্থিত রয়েছে।

কম্পিউটার ভিশন আশ্চর্যজনক অ্যাপ্লিকেশন অফার করে - স্ব-চালিত গাড়ি থেকে মুখের স্বীকৃতি এবং আরও অনেক কিছু। এবং এটি, ঘুরে, ইমেজ প্রক্রিয়াকরণের মাধ্যমে সম্ভব হয়েছে।

সুতরাং, চিত্র প্রক্রিয়াকরণ কি বস্তুর চারপাশে আয়তক্ষেত্র বা নিদর্শন আঁকার মতো সহজ? না। বলা হচ্ছে, বাউন্ডিং বাক্সগুলো কি করে?

আসুন বুঝতে পারি।

কিভাবে বাউন্ডিং বক্স ইমেজ প্রসেসিং এ কাজ করে?

উল্লিখিত হিসাবে, বাউন্ডিং বক্স একটি কাল্পনিক আয়তক্ষেত্র যা বস্তু সনাক্তকরণের জন্য একটি রেফারেন্স পয়েন্ট হিসাবে কাজ করে এবং বস্তুর জন্য একটি সংঘর্ষ বাক্স তৈরি করে।

সুতরাং, এটি কীভাবে ডেটা টীকাকারীদের সাহায্য করে? ঠিক আছে, পেশাদাররা চিত্রের উপর কাল্পনিক আয়তক্ষেত্র আঁকতে বাউন্ডিং বাক্সের ধারণা ব্যবহার করে। তারা প্রতিটি চিত্রের মধ্যে প্রশ্নবিদ্ধ বস্তুর রূপরেখা তৈরি করে এবং এর X এবং Y স্থানাঙ্ক সংজ্ঞায়িত করে। এটি মেশিন লার্নিং অ্যালগরিদমগুলির কাজকে সহজ করে তোলে, তাদের সংঘর্ষের পথ খুঁজে পেতে সাহায্য করে এবং এর ফলে কম্পিউটিং সংস্থানগুলি সংরক্ষণ করে৷

উদাহরণস্বরূপ, নীচের চিত্রে, প্রতিটি যান একটি মূল বস্তু যার অবস্থান এবং অবস্থান মেশিন লার্নিং মডেল প্রশিক্ষণের জন্য অপরিহার্য। ডেটা অ্যানোটেটররা এই ক্ষেত্রে প্রতিটি বস্তুর চারপাশে আয়তক্ষেত্র আঁকতে বাউন্ডিং বাক্স কৌশল ব্যবহার করে - যানবাহন, এই ক্ষেত্রে।

উত্স: keymakr

তারপর, তারা প্রতিটি বস্তুর অবস্থান এবং অবস্থান বোঝার জন্য স্থানাঙ্ক ব্যবহার করে, যা মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণের জন্য দরকারী। একটি একক আবদ্ধ বাক্স একটি ভাল ভবিষ্যদ্বাণী হার প্রদান করে না। বর্ধিত বস্তু সনাক্তকরণের জন্য, একাধিক বাউন্ডিং বাক্স অবশ্যই ডেটা বৃদ্ধির পদ্ধতির সাথে একত্রে ব্যবহার করতে হবে।

বাউন্ডিং বাক্সগুলি অত্যন্ত দক্ষ এবং শক্তিশালী ইমেজ টীকা কৌশল যা খরচ যথেষ্ট কমিয়ে দেয়।

একটি আবদ্ধ বাক্স সংজ্ঞায়িত পরামিতি

প্যারামিটারগুলি বাউন্ডিং বাক্স নির্দিষ্ট করতে ব্যবহৃত নিয়মগুলির উপর ভিত্তি করে। ব্যবহৃত মূল পরামিতিগুলির মধ্যে রয়েছে:

  • শ্রেণী: এটি বাউন্ডিং বাক্সের ভিতরের বস্তুকে বোঝায় — উদাহরণস্বরূপ, গাড়ি, বাড়ি, ভবন ইত্যাদি।
  • (X1, Y1): এটি আয়তক্ষেত্রের উপরের বাম কোণে X এবং Y স্থানাঙ্ককে বোঝায়।
  • (X2, Y2): এটি আয়তক্ষেত্রের নীচের ডানদিকের কোণায় X এবং Y স্থানাঙ্কগুলিকে বোঝায়।
  • (Xc, Yc): এটি বাউন্ডিং বাক্সের কেন্দ্রের X এবং Y স্থানাঙ্ককে বোঝায়।
  • প্রস্থ: এটি বাউন্ডিং বাক্সের প্রস্থকে বোঝায়।
  • উচ্চতা: এটি বাউন্ডিং বাক্সের উচ্চতা নির্দেশ করে।
  • আত্মবিশ্বাস: এটি বাক্সে থাকা বস্তুর সম্ভাবনাকে প্রতিনিধিত্ব করে। বলুন, আত্মবিশ্বাস 0.9। এর মানে 90% সম্ভাবনা যে বস্তুটি আসলে বাক্সের ভিতরে উপস্থিত থাকবে।

একটি বাউন্ডিং বক্স নির্দিষ্ট করে নিয়মাবলী

একটি আবদ্ধ বাক্স নির্দিষ্ট করার সময়, সাধারণত, দুটি প্রধান নিয়ম অন্তর্ভুক্ত করা প্রয়োজন। এইগুলো:

  • আয়তক্ষেত্রের উপরের বাম এবং নীচের ডান বিন্দুগুলির X এবং Y স্থানাঙ্ক।
  • বাউন্ডিং বাক্সের কেন্দ্রের X এবং Y স্থানাঙ্ক, এর প্রস্থ এবং উচ্চতা সহ।

একটি গাড়ির উদাহরণ দিয়ে এটি ব্যাখ্যা করা যাক।

ক প্রথম কনভেনশনের সাপেক্ষে, বাউন্ডিং বাক্সটি উপরের বাম এবং নীচের ডানদিকের বিন্দুগুলির স্থানাঙ্ক অনুসারে নির্দিষ্ট করা হয়েছে।

উত্স: বিশ্লেষণবিদ্যা

খ. দ্বিতীয় কনভেনশনের সাপেক্ষে, কেন্দ্রের স্থানাঙ্ক, প্রস্থ এবং উচ্চতা অনুসারে বাউন্ডিং বাক্সটি বর্ণনা করা হয়েছে।

উত্স: বিশ্লেষণবিদ্যা

ব্যবহারের ক্ষেত্রের উপর নির্ভর করে, বিভিন্ন কনভেনশন প্রকারের মধ্যে রূপান্তর করা সম্ভব।

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • প্রস্থ = (X2 – X1)
  • উচ্চতা = (Y2 – Y1)

বাউন্ডিং বক্স প্রোগ্রামিং কোড দিয়ে ব্যাখ্যা করা হয়েছে

কোড স্নিপেট সহ একটি বস্তুর অবস্থান বা অবস্থান সম্পর্কে আরেকটি উদাহরণ দেখা যাক।

উত্স: d2i

আমরা এই চিত্রের জন্য ব্যবহার করার জন্য ইমেজ লোড. ছবিটির বামে একটি কুকুর এবং ডানদিকে একটি বিড়াল রয়েছে। ছবিতে দুটি বস্তু রয়েছে - একটি কুকুর এবং একটি বিড়াল।

উত্স: d2i

উত্স: d2i

বাউন্ডিং বাক্সের উপরের বাম এবং নীচের-ডান কোণগুলির জন্য স্থানাঙ্ক হিসাবে x এবং y নেওয়া যাক। বলুন, (x1,y1) এবং (x2,y2)। একইভাবে, এর প্রস্থ এবং উচ্চতা সহ বাউন্ডিং বাক্সের কেন্দ্রের জন্য (x,y) – অক্ষ স্থানাঙ্কগুলি বিবেচনা করা যাক।

এর পরে, আমরা এই ফর্মগুলিকে রূপান্তর করার জন্য দুটি ফাংশন সংজ্ঞায়িত করি: box_corner_to_center দুই-কোনার প্রতিনিধিত্বকে কেন্দ্র-উচ্চতা-প্রস্থ উপস্থাপনায় রূপান্তর করে এবং box_center_to_corner এর বিপরীতে করে।

ইনপুট আর্গুমেন্ট বাক্সগুলি আকৃতির একটি দ্বি-মাত্রিক টেনসর (n,4), যেখানে n হল বাউন্ডিং বাক্সের সংখ্যা।

উত্স: d2i

এর পরে, স্থানাঙ্ক ডেটার উপর ভিত্তি করে ছবিতে কুকুর এবং বিড়ালের আবদ্ধ বাক্সগুলি সংজ্ঞায়িত করা যাক।

উত্স: d2i

দুটি বাউন্ডিং বাক্সের রূপান্তর ফাংশনের সঠিকতা যাচাই করতে, আমরা দুইবার রূপান্তর করতে পারি।

উত্স: d2i

উত্স: d2i

এর পরে, আমরা ইমেজের উপর বস্তুর বাউন্ডিং বাক্সগুলি আঁকতে পারি যেগুলি সঠিক কিনা তা পরীক্ষা করতে। তার আগে, আমরা একটি ফাংশন bbox_t_rect সংজ্ঞায়িত করি যা matplotlib প্যাকেজের প্রাসঙ্গিক বিন্যাসে বাউন্ডিং বক্সকে উপস্থাপন করে।

উত্স: d2i

এখন, ছবিতে কুকুর এবং বিড়াল বস্তুর বাউন্ডিং বক্স যোগ করার পর, আমরা দেখতে পাচ্ছি যে এই বস্তুর মূল রূপরেখা দুটি বাক্সের মধ্যে রয়েছে।

উত্স: d2i

উত্স: d2i


পুনরাবৃত্তিমূলক ম্যানুয়াল কাজগুলি স্বয়ংক্রিয় করতে চান? আমাদের Nanonets ওয়ার্কফ্লো-ভিত্তিক নথি প্রক্রিয়াকরণ সফ্টওয়্যার পরীক্ষা করুন। চালান, পরিচয়পত্র বা অটোপাইলটের যেকোনো নথি থেকে ডেটা বের করুন!


বাউন্ডিং বক্সের সাধারণ ব্যবহারের ক্ষেত্রে

স্ব-ড্রাইভিং যানবাহন অবজেক্ট স্থানীয়করণ

বাউন্ডিং বক্সগুলি স্ব-ড্রাইভিং বা স্বায়ত্তশাসিত যানবাহনগুলিকে রাস্তার উপর থাকা বস্তুগুলি যেমন বিল্ডিং, ট্র্যাফিক সিগন্যাল, যে কোনও বাধা এবং আরও অনেক কিছু শনাক্ত করতে প্রশিক্ষণের ক্ষেত্রে অবিচ্ছেদ্য। তারা যেকোনো বাধা টীকা করতে সাহায্য করে এবং রোবটকে নিরাপদে গাড়ি চালাতে এবং দুর্ঘটনা প্রতিরোধ করতে সক্ষম করে, এমনকি যানজটের ক্ষেত্রেও।

রোবোটিক্স ইমেজরি

রোবট এবং ড্রোনের দৃষ্টিভঙ্গি চিহ্নিত করতে বাউন্ডিং বাক্সের মতো চিত্রের টীকা কৌশলগুলি ব্যাপকভাবে ব্যবহৃত হয়। এই স্বায়ত্তশাসিত যানগুলি এই টীকা পদ্ধতি থেকে প্রাপ্ত ফটোগ্রাফ ব্যবহার করে পৃথিবীর বস্তুকে শ্রেণিবদ্ধ করতে সহায়তা করে।

ইকমার্স এবং খুচরা জন্য ইমেজ ট্যাগিং

বাউন্ডিং বক্স টীকা পণ্যের ভিজ্যুয়ালাইজেশন উন্নত করতে সাহায্য করে, যা ইকমার্স এবং খুচরা ক্ষেত্রে একটি বড় প্লাস। অনুরূপ আইটেমগুলিতে প্রশিক্ষিত মডেলগুলি ফ্যাশন পোশাক, আনুষাঙ্গিক, আসবাবপত্র, প্রসাধনী ইত্যাদির মতো বস্তুগুলিকে টীকা করতে পারে, যখন সঠিকভাবে লেবেল করা হয়। নীচে খুচরোতে বাউন্ডিং বক্স টীকা দ্বারা সমাধান করা কিছু চ্যালেঞ্জ রয়েছে:

  • ভুল অনুসন্ধান ফলাফল

যদি অনুসন্ধান করাই একমাত্র উপায় যা গ্রাহকরা ই-কমার্স সাইটে হোঁচট খেতে পারে, তাহলে ভুল ক্যাটালগ ডেটার ফলে ভুল অনুসন্ধানের ফলাফল হতে পারে, যার ফলে গ্রাহক ট্রাফিক সাইটের দিকে চালিত হবে না।

  • অসংগঠিত সরবরাহ চেইন

যারা তাদের খুচরা ব্যবসা প্রসারিত করতে চান যাতে লক্ষ লক্ষ পণ্য বার্ষিক পাঠানো যায়, তাদের জন্য অফলাইন এবং অনলাইন ডেটা সিঙ্কে থাকা অপরিহার্য হয়ে ওঠে।

  • ক্রমাগত ডিজিটাইজেশন

গ্রাহকরা যাতে কোনো নতুন সুযোগ হাতছাড়া না করেন তা নিশ্চিত করার জন্য সব পণ্যকে ডিজিটাইজ করা এবং পদ্ধতিগতভাবে এবং দ্রুত ট্যাগ করা খুবই গুরুত্বপূর্ণ। এছাড়াও, ট্যাগগুলি অবশ্যই প্রেক্ষাপটে হতে হবে, যা মেনে চলা কঠিন হয়ে পড়ে কারণ খুচরা ব্যবসার প্রসারিত হয় এবং আরও পণ্য যুক্ত হয়।

বীমা দাবির জন্য গাড়ির ক্ষতি সনাক্ত করে

বাউন্ডিং বাক্সের কৌশলটি দুর্ঘটনায় ক্ষতিগ্রস্ত গাড়ি, বাইক বা অন্যান্য যানবাহন ট্র্যাক করতে সাহায্য করে। মেশিন লার্নিং মডেলগুলি ক্ষতির অবস্থান এবং তীব্রতা বোঝার জন্য বাউন্ডিং বাক্স থেকে এই চিত্রগুলি ব্যবহার করে। এটি ক্ষতির খরচের পূর্বাভাস দিতে সাহায্য করে, যার ভিত্তিতে ক্লায়েন্টরা মামলা করার আগে তাদের অনুমান উপস্থাপন করতে পারে।

উত্স: সুপারঅ্যানোটেট

ইনডোর আইটেম সনাক্তকরণ

বাউন্ডিং বক্স কম্পিউটারগুলিকে বিছানা, সোফা, ডেস্ক, ক্যাবিনেট বা বৈদ্যুতিক যন্ত্রপাতির মতো অন্দর আইটেমগুলি সনাক্ত করতে সহায়তা করে। এটি কম্পিউটারগুলিকে তাদের মাত্রা এবং অবস্থান সহ স্থান এবং উপস্থিত বস্তুর ধরন সম্পর্কে ধারণা পেতে দেয়। এটি, পরিবর্তে, বাস্তব জীবনের পরিস্থিতিতে এই আইটেমগুলি সনাক্ত করতে মেশিন লার্নিং মডেলগুলিকে সহায়তা করে।

বাউন্ডিং বাক্সগুলি বিভিন্ন ধরণের বস্তু বোঝা এবং ব্যাখ্যা করার জন্য গভীর শিক্ষার সরঞ্জাম হিসাবে ফটোগ্রাফগুলিতে ব্যাপকভাবে ব্যবহৃত হয়।

কৃষিতে রোগ ও উদ্ভিদের বৃদ্ধি সনাক্তকরণ

উদ্ভিদ রোগের প্রাথমিক সনাক্তকরণ কৃষকদের মারাত্মক ক্ষতি প্রতিরোধে সহায়তা করে। স্মার্ট ফার্মিং এর উত্থানের সাথে সাথে, গাছের রোগ শনাক্ত করতে মেশিন লার্নিং মডেল শেখানোর জন্য ডেটা প্রশিক্ষণের মধ্যে চ্যালেঞ্জ রয়েছে। বাউন্ডিং বাক্সগুলি একটি প্রধান চালক যা মেশিনে প্রয়োজনীয় দৃষ্টি প্রদান করে।

প্রস্তুতকারী প্রতিষ্ঠান

শিল্পে বস্তু সনাক্তকরণ এবং আইটেম সনাক্তকরণ উত্পাদনের একটি অপরিহার্য দিক। এআই-সক্ষম রোবট এবং কম্পিউটারের সাথে, ম্যানুয়াল হস্তক্ষেপের ভূমিকা হ্রাস করা হয়। এটি বলেছে, বাউন্ডিং বাক্সগুলি মেশিন লার্নিং মডেলগুলিকে শিল্প উপাদানগুলি সনাক্ত করতে এবং সনাক্ত করতে প্রশিক্ষণ দিয়ে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। উপরন্তু, মান নিয়ন্ত্রণ, বাছাই, এবং সমাবেশ লাইন অপারেশনগুলির মতো প্রক্রিয়াগুলি যা সমস্ত গুণমান ব্যবস্থাপনার একটি অংশ, বস্তু সনাক্তকরণের প্রয়োজন।

মেডিকেল ইমেজিং

বাউন্ডিং বক্সগুলি স্বাস্থ্যসেবা শিল্পে অ্যাপ্লিকেশনগুলিও খুঁজে পায়, যেমন মেডিকেল ইমেজিংয়ে। মেডিকেল ইমেজিংয়ের কৌশলটি হৃৎপিণ্ডের মতো শারীরবৃত্তীয় বস্তু সনাক্তকরণের সাথে সম্পর্কিত এবং দ্রুত এবং সঠিক বিশ্লেষণের প্রয়োজন। বাউন্ডিং বক্সগুলি মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে, যা তারপরে দ্রুত এবং নির্ভুলভাবে হৃদয় বা অন্যান্য অঙ্গ সনাক্ত করতে সক্ষম হবে।

স্বয়ংক্রিয় সিসিটিভি

বেশিরভাগ আবাসিক, বাণিজ্যিক এবং অন্যান্য প্রতিষ্ঠানে স্বয়ংক্রিয় সিসিটিভি একটি বাধ্যতামূলক। প্রায়শই, ক্যাপচার করা সিসিটিভি ফুটেজ দীর্ঘ সময়ের জন্য রাখার জন্য উচ্চ মেমরি স্টোরেজ প্রয়োজন। বাউন্ডিং বাক্সের মতো বস্তু সনাক্তকরণ কৌশলগুলির মাধ্যমে, এটি নিশ্চিত করা যেতে পারে যে ফুটেজটি তখনই রেকর্ড করা হয়েছে যখন নির্দিষ্ট বস্তু সনাক্ত করা হয়। বাউন্ডিং বাক্সগুলি মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দিতে পারে, যা শুধুমাত্র সেই বস্তুগুলি সনাক্ত করবে এবং সেই মুহূর্তে, ফুটেজগুলি ক্যাপচার করা যেতে পারে। এটি সিসিটিভির জন্য প্রয়োজনীয় স্টোরেজের পরিমাণ কমাতে এবং খরচ কমাতেও সাহায্য করবে।

ফেসিয়াল রিকগনিশন এবং ডিটেকশন

মুখের স্বীকৃতি একাধিক অ্যাপ্লিকেশন অফার করে, যেমন এটি বায়োমেট্রিক নজরদারিতে ব্যবহৃত হয়। এছাড়াও, বিভিন্ন সংস্থা যেমন ব্যাংক, বিমানবন্দর, খুচরা দোকান, স্টেডিয়াম এবং অন্যান্য প্রতিষ্ঠান অপরাধ ও সহিংসতা প্রতিরোধে মুখের স্বীকৃতি ব্যবহার করে। এটি বলেছে, মুখের সনাক্তকরণ কম্পিউটার দৃষ্টির একটি গুরুত্বপূর্ণ উপাদান যা চিত্র প্রক্রিয়াকরণ জড়িত। এবং এখানে আবার, বাউন্ডিং বাক্সগুলি চরিত্র সনাক্তকরণের জন্য একটি কার্যকর সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে।


রোবোটিক প্রক্রিয়া অটোমেশন ব্যবহার করতে চান? Nanonets ওয়ার্কফ্লো-ভিত্তিক নথি প্রক্রিয়াকরণ সফ্টওয়্যার দেখুন। কোনো সংকেত নেই. কোন ঝামেলা প্ল্যাটফর্ম.


অক্ষর স্বীকৃতির জন্য বাউন্ডিং বক্স

অবজেক্ট সনাক্তকরণের মধ্যে রয়েছে - চিত্র শ্রেণীবিভাগ এবং বস্তু স্থানীয়করণ। এর অর্থ হল একটি কম্পিউটারকে একটি বস্তু সনাক্ত করতে, এটিকে জানতে হবে যে প্রশ্নে থাকা বস্তুটি কী এবং এটি কোথায় অবস্থিত। চিত্র শ্রেণীবিভাগ একটি চিত্রকে একটি শ্রেণী লেবেল বরাদ্দ করে। অবজেক্ট লোকালাইজেশন একটি চিত্রের প্রশ্নে থাকা বস্তুর চারপাশে বাউন্ডিং বক্স আঁকার সাথে সম্পর্কিত।

প্রক্রিয়াটির মধ্যে একটি টীকাকারী বস্তুর চারপাশে বাউন্ডিং বাক্সগুলি আঁকতে এবং সেগুলিকে লেবেল করে। এটি অ্যালগরিদমকে প্রশিক্ষণ দিতে সাহায্য করে এবং বস্তুটি দেখতে কেমন তা বোঝার অনুমতি দেয়। বস্তু সনাক্তকরণের প্রথম ধাপ হিসাবে, চিত্র ডেটাসেটে অবশ্যই লেবেল থাকতে হবে।

একটি ইমেজ লেবেল করতে, নিচের ধাপগুলি অনুসরণ করুন:

  • আপনি যে ডেটাসেটটি প্রশিক্ষণ এবং পরীক্ষা করতে চান তা চয়ন করুন। এটির একটি ফোল্ডার তৈরি করুন।
  • আসুন একটি মুখ সনাক্তকরণ প্রকল্পের উদাহরণ নেওয়া যাক যেমন: বিটিএস, অ্যাভেঞ্জার ইত্যাদি।
  • ফোল্ডারের নাম ডেটা তৈরি করুন।
  • Google Drive-এ, FaceDetection নামে একটি ফোল্ডার তৈরি করুন।
  • FaceDetection ফোল্ডারে, ছবির একটি ফোল্ডার তৈরি করুন।
  • ইমেজ ফোল্ডারে, টেস্ট ইমেজ, টেস্ট এক্সএমএল, ট্রেন ইমেজ এবং ট্রেন এক্সএমএলের ফোল্ডার তৈরি করুন।

উত্স:indusmic

এখন, ট্রেনের ছবি ফোল্ডারে, JPEG ফরম্যাটে BTS এবং Avengers-এর 10-15টি ছবি ডাউনলোড এবং আপলোড করুন। একইভাবে, টেস্ট ইমেজ ফোল্ডারে, 5-6টি ছবির জন্য একই কাজ করুন। সঠিক ফলাফলের জন্য ডেটাসেটে আরও ছবি রাখার পরামর্শ দেওয়া হয়।

উত্স: indusmic

উত্স: indusmic

এরপরে, টেস্ট ইমেজ এবং ট্রেন ইমেজ ফোল্ডারের প্রতিটি ইমেজের জন্য একটি XML ফাইল তৈরি করুন

উইন্ডোজ v_1.8.0 ডাউনলোড করুন এবং ক্লিক করুন। GitHub থেকে .exe ফাইলটিতে ক্লিক করুন এবং রান টিপুন।

এরপরে, ছবির ফোল্ডার নির্বাচন করতে খোলা ডিরেক্টরিতে ক্লিক করুন। আপনি যে ছবিটি লেবেল করতে হবে তা দেখতে পাবেন। লেবেল করতে, কীবোর্ডে W টিপুন এবং বস্তুর চারপাশে বাক্সটি আঁকতে কার্সারটিকে ডান-ক্লিক করুন এবং টেনে আনুন। এটি একটি নাম দিন এবং ঠিক আছে ক্লিক করুন.

উত্স: indusmic

এরপরে, চিত্র ফোল্ডারে চিত্রটির XML ফাইল তৈরি করতে ছবিটি সংরক্ষণ করুন, যেমনটি নীচে দেখানো হয়েছে।

উত্স: indusmic

স্থানাঙ্কগুলি দেখতে XML ফাইলটি খুলুন।

উত্স: indusmic

XML ফাইলগুলি তৈরি করতে এবং স্থানাঙ্কগুলি সন্ধান করতে সমস্ত চিত্রের পদ্ধতিটি পুনরাবৃত্তি করুন।


আপনি যদি চালান, এবং রসিদ নিয়ে কাজ করেন বা আইডি যাচাইকরণের বিষয়ে উদ্বিগ্ন হন, তাহলে Nanonets দেখুন অনলাইন ওসিআর or পিডিএফ টেক্সট এক্সট্র্যাক্টর PDF নথি থেকে পাঠ্য বের করতে বিনামূল্যে জন্য. সম্পর্কে আরও জানতে নীচে ক্লিক করুন Nanonets এন্টারপ্রাইজ অটোমেশন সমাধান.


বাউন্ডিং বক্সে ব্যবহৃত বিভিন্ন টীকা বিন্যাস

মূলত, একটি বাউন্ডিং বাক্সে (x,y) অক্ষে 4টি পয়েন্ট থাকে যা কোণগুলিকে উপস্থাপন করে:

উপরে-বাম: (x_min, y_min)

উপরে-ডান: (x_max, y_min)

নীচে-বাম:(x_min, y_max)

নীচে-ডান: (x_max, y_max)

বাউন্ডিং বাক্সের স্থানাঙ্কগুলি চিত্রের উপরের-বাম কোণে সাপেক্ষে গণনা করা হয়।

বেশ কয়েকটি বাউন্ডিং বক্স টীকা বিন্যাস রয়েছে, প্রতিটি বাউন্ডিং বক্স স্থানাঙ্কের নিজস্ব উপস্থাপনা ব্যবহার করে।

ক অ্যালবমেন্টেশন

তারা বাউন্ডিং বাক্সের প্রতিনিধিত্ব করার জন্য চারটি মান ব্যবহার করে – [x_min, y_min, x_max, y_max] – যেগুলিকে চিত্রের উচ্চতা দ্বারা x-অক্ষের জন্য পিক্সেলে স্থানাঙ্কগুলিকে প্রস্থ এবং y-অক্ষ দ্বারা বিভক্ত করে স্বাভাবিক করা হয়।

বলুন বাউন্ডিং বাক্সের স্থানাঙ্কগুলি হল: x1 = 678, y1 = 24; x2 = 543, y2= 213।

ধরুন প্রস্থ = 870, উচ্চতা = 789

তারপর, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

অ্যালবামেন্টেশন বাউন্ডিং বাক্সের সাথে অভ্যন্তরীণভাবে এই মানগুলি ব্যবহার করে এবং ব্যাখ্যা করে এবং সেগুলিকে উন্নত করে।

খ. কোকো

এটি কনটেক্সট COCO ডেটাসেটে সাধারণ বস্তু দ্বারা ব্যবহৃত একটি বিন্যাস। COCO বিন্যাসে, একটি বাউন্ডিং বাক্স চারটি মান দ্বারা উপস্থাপিত হয়: (x_min, y_min, প্রস্থ, উচ্চতা)। মূলত, তারা উপরের-বাম কোণে এবং বাউন্ডিং বাক্সের প্রস্থ এবং উচ্চতা উল্লেখ করে।

গ. ইওলো

এই বিন্যাসে, একটি বাউন্ডিং বক্স চারটি মান সহ উপস্থাপন করা হয়েছে :(x_center, y_center, width, height)। এখানে, x_center এবং y_center বাউন্ডিং বাক্সের কেন্দ্রের স্বাভাবিককৃত x এবং y স্থানাঙ্কগুলিকে নির্দেশ করে। স্বাভাবিক করার জন্য, ছবির প্রস্থ দ্বারা কেন্দ্রের x স্থানাঙ্ক এবং চিত্রের উচ্চতা দ্বারা কেন্দ্রের y স্থানাঙ্ক। প্রস্থ এবং উচ্চতার মানগুলিও স্বাভাবিক করা হয়।

d প্যাসকেল

প্যাসকেল বিন্যাসে, বাউন্ডিং বাক্সটি উপরের-বাম এবং নীচে-ডান স্থানাঙ্ক দ্বারা উপস্থাপিত হয়। সুতরাং, পিক্সেলে এনকোড করা মানগুলি হল: [x_min, y_min, x_max, y_max]। এখানে, [x_min, y_min] হল উপরের-বাম কোণে, যখন [x_max, y_max] বাউন্ডিং বাক্সের নীচে-ডানদিকের কোণে বোঝায়।


পুনরাবৃত্তিমূলক ম্যানুয়াল কাজগুলি স্বয়ংক্রিয় করতে চান? দক্ষতা বাড়ানোর সময় সময়, প্রচেষ্টা এবং অর্থ সাশ্রয় করুন!


বাউন্ডিং বক্স ব্যবহার করার ক্ষেত্রে সতর্কতা এবং সর্বোত্তম অভ্যাস

ছবি প্রক্রিয়াকরণে বাউন্ডিং বাক্সের সর্বোত্তম ব্যবহারের জন্য কিছু সতর্কতা এবং সর্বোত্তম অনুশীলনের সুপারিশ করা হয়। তারা সহ:

বক্স সাইজ বৈচিত্র্য

একই আকারের সমস্ত বাউন্ডিং বাক্স ব্যবহার করলে সঠিক ফলাফল পাওয়া যাবে না। আপনার মডেলগুলিকে একই আকারের বাউন্ডিং বাক্সগুলিতে প্রশিক্ষণ দেওয়া মডেলটিকে আরও খারাপ করে তুলবে৷ উদাহরণস্বরূপ, যদি একই বস্তু আকারে ছোট দেখায়, মডেলটি এটি সনাক্ত করতে ব্যর্থ হতে পারে। প্রত্যাশিত থেকে বড় আকারের বস্তুর ক্ষেত্রে, এটি একটি বৃহত্তর সংখ্যক পিক্সেল নিতে পারে এবং বস্তুর সঠিক অবস্থান এবং অবস্থান প্রদান করতে পারে না। কাঙ্খিত ফলাফল অর্জনের জন্য বস্তুর আকার এবং আয়তনের তারতম্যকে মনে রাখাই মূল বিষয়।

পিক্সেল-পারফেক্ট টাইটনেস

নিবিড়তা একটি গুরুত্বপূর্ণ ফ্যাক্টর। এর মানে নির্ভুল ফলাফলের জন্য বাউন্ডিং বাক্সের প্রান্তগুলি যতটা সম্ভব প্রশ্নবিদ্ধ বস্তুর কাছাকাছি হতে হবে। সামঞ্জস্যপূর্ণ ফাঁক মডেলের ভবিষ্যদ্বাণী এবং বাস্তব বস্তুর মধ্যে ওভারল্যাপের ক্ষেত্র নির্ধারণে নির্ভুলতাকে প্রভাবিত করতে পারে, যার ফলে সমস্যা তৈরি হয়।

তির্যক আইটেমগুলি বাউন্ডিং বাক্সে স্থাপন করা হয়েছে

একটি বাউন্ডিং বাক্সের মধ্যে তির্যকভাবে রাখা আইটেমগুলির সাথে সমস্যাটি হল যে তারা পটভূমির তুলনায় বাক্সের ভিতরে যথেষ্ট কম জায়গা নেয়। যাইহোক, যদি বেশি সময় ধরে উন্মুক্ত করা হয়, তাহলে মডেলটি অনুমান করতে পারে যে লক্ষ্যটি পটভূমি কারণ এটি বেশি স্থান খরচ করে। সুতরাং, একটি সর্বোত্তম অনুশীলন হিসাবে, বহুভুজ এবং তির্যক বস্তুর জন্য ইনস্ট্যান্স সেগমেন্টেশন ব্যবহার করার পরামর্শ দেওয়া হয়। তবুও, একটি ভাল পরিমাণ প্রশিক্ষণের ডেটা সহ একটি বাউন্ডিং বক্স সহ মডেলগুলি শেখানো সম্ভব।

বক্স ওভারল্যাপ হ্রাস করুন

সমস্ত পরিস্থিতিতে টীকা ওভারল্যাপ এড়ানো সবসময় নিরাপদ। কখনও কখনও, এটি এত বেশি বিশৃঙ্খল হতে পারে যে শুধুমাত্র কিছু ওভারল্যাপিং বাক্স শেষ পর্যন্ত দৃশ্যমান হতে পারে। অন্যান্য সত্তার সাথে লেবেলিং ওভারল্যাপ থাকা বস্তুগুলি তুলনামূলকভাবে খারাপ ফলাফল তৈরি করে। অত্যধিক ওভারল্যাপিংয়ের কারণে মডেলটি লক্ষ্য বস্তু এবং অন্যান্য আইটেমের মধ্যে পার্থক্য করতে ব্যর্থ হবে। এই ধরনের ক্ষেত্রে, বহুভুজ উচ্চ নির্ভুলতার জন্য ব্যবহার করা যেতে পারে।

উপসংহার

চিত্র প্রক্রিয়াকরণ প্রযুক্তির একটি উদীয়মান ক্ষেত্র যা বিস্তৃত সুযোগ প্রদান করে। এটি বলেছিল, বাউন্ডিং বাক্সগুলি সবচেয়ে বেশি প্রয়োগ করা চিত্র প্রক্রিয়াকরণ কৌশল গঠন করে।

সংক্ষেপে, বাউন্ডিং বাক্সগুলি এআই-ভিত্তিক মেশিন লার্নিং মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য একটি চিত্র টীকা পদ্ধতি। এটি রোবট, ড্রোন, স্বায়ত্তশাসিত যানবাহন, নজরদারি ক্যামেরা এবং অন্যান্য মেশিন ভিশন ডিভাইস সহ বিস্তৃত অ্যাপ্লিকেশনগুলিতে বস্তু সনাক্তকরণ এবং লক্ষ্য শনাক্তকরণের জন্য ব্যবহৃত হয়।

প্রস্তাবিত সম্পদ:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


ন্যানোনেটস অনলাইন ওসিআর এবং ওসিআর এপিআই অনেক আকর্ষণীয় আছে ক্ষেত্রে ব্যবহার করুন tটুপি আপনার ব্যবসায়ের পারফরম্যান্সকে অনুকূল করতে পারে, ব্যয় বাঁচায় এবং বৃদ্ধি বাড়াতে পারে। খুঁজে বের কর Nanonets- এর ব্যবহারের ক্ষেত্রে কীভাবে আপনার পণ্য প্রয়োগ করতে পারে।


সময় স্ট্যাম্প:

থেকে আরো এআই এবং মেশিন লার্নিং