পিডিএফ ডকুমেন্ট অ্যামাজন টেক্সট্র্যাক্টের সাথে প্রি-প্রসেসিং: ভিজ্যুয়াল সনাক্তকরণ এবং অপসারণ

উত্স নোড: 1204412

অ্যামাজন টেক্সট্র্যাক একটি সম্পূর্ণরূপে পরিচালিত মেশিন লার্নিং (ML) পরিষেবা যা স্বয়ংক্রিয়ভাবে স্ক্যান করা নথিগুলি থেকে মুদ্রিত পাঠ্য, হাতের লেখা এবং অন্যান্য ডেটা বের করে যা ফর্ম এবং টেবিল থেকে ডেটা সনাক্ত করতে, বুঝতে এবং বের করতে সহজ অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) এর বাইরে যায়৷ অ্যামাজন টেক্সট্র্যাক্ট আর্থিক প্রতিবেদন, মেডিকেল রেকর্ড এবং ট্যাক্স ফর্ম সহ বিভিন্ন নথিতে পাঠ্য সনাক্ত করতে পারে।

অনেক ব্যবহারের ক্ষেত্রে, আপনাকে লোগো, ফটো এবং চার্টের মতো বিভিন্ন ভিজ্যুয়াল সহ নথিগুলি বের করতে এবং বিশ্লেষণ করতে হবে। এই ভিজ্যুয়ালগুলিতে এমবেডেড টেক্সট রয়েছে যা অ্যামাজন টেক্সট্র্যাক্ট আউটপুটকে বিভ্রান্ত করে বা আপনার ডাউনস্ট্রিম প্রক্রিয়ার জন্য প্রয়োজন হয় না। উদাহরণস্বরূপ, অনেক রিয়েল এস্টেট মূল্যায়ন ফর্ম বা নথিতে বাড়িগুলির ছবি বা ঐতিহাসিক মূল্যের প্রবণতা রয়েছে। ডাউনস্ট্রিম প্রসেসে এই তথ্যের প্রয়োজন নেই, এবং ডকুমেন্ট বিশ্লেষণ করতে অ্যামাজন টেক্সট্র্যাক্ট ব্যবহার করার আগে আপনাকে এটি সরিয়ে ফেলতে হবে। এই পোস্টে, আমরা আপনার প্রিপ্রসেসিংয়ের অংশ হিসাবে এই ভিজ্যুয়ালগুলি সরানোর জন্য দুটি কার্যকর পদ্ধতির চিত্র তুলে ধরছি।

সমাধান ওভারভিউ

এই পোস্টের জন্য, আমরা একটি পিডিএফ ব্যবহার করি যাতে একটি লোগো এবং একটি উদাহরণ হিসাবে একটি চার্ট রয়েছে। আমরা এই ভিজ্যুয়ালগুলিকে রূপান্তর করতে এবং সনাক্ত করতে দুটি ভিন্ন ধরণের প্রক্রিয়া ব্যবহার করি, তারপরে সেগুলিকে সংশোধন করি।

প্রথম পদ্ধতিতে, আমরা ভিজ্যুয়ালের প্রান্ত সনাক্ত করতে OpenCV লাইব্রেরি ক্যানি এজ ডিটেক্টর ব্যবহার করি। দ্বিতীয় পদ্ধতির জন্য, আমরা এই ভিজ্যুয়ালগুলির অবস্থান সনাক্ত করতে একটি কাস্টম পিক্সেল ঘনত্ব বিশ্লেষক লিখি।

আপনি আরও প্রক্রিয়াকরণের জন্য এই ভিজ্যুয়ালগুলি বের করতে পারেন এবং আপনার ব্যবহারের ক্ষেত্রে উপযুক্ত করার জন্য কোডটি সহজেই পরিবর্তন করতে পারেন।

অনুসন্ধানযোগ্য পিডিএফগুলি হল নেটিভ পিডিএফ ফাইলগুলি সাধারণত অন্যান্য অ্যাপ্লিকেশন, যেমন টেক্সট প্রসেসর, ভার্চুয়াল পিডিএফ প্রিন্টার এবং নেটিভ এডিটর দ্বারা তৈরি করা হয়। এই ধরনের PDF নথির ভিতরে মেটাডেটা, টেক্সট এবং ইমেজ তথ্য ধরে রাখে। আপনি সহজেই লাইব্রেরি ব্যবহার করতে পারেন PyMuPDF/fitz PDF স্ট্রাকচার নেভিগেট করতে এবং ইমেজ এবং টেক্সট সনাক্ত করতে। এই পোস্টে, আমরা অ-অনুসন্ধানযোগ্য বা চিত্র-ভিত্তিক নথিগুলিতে ফোকাস করি।

বিকল্প 1: OpenCV এজ ডিটেক্টর দিয়ে ভিজ্যুয়াল সনাক্ত করা

এই পদ্ধতিতে, আমরা পিডিএফকে পিএনজি ফরম্যাটে রূপান্তর করি, তারপর ডকুমেন্টটিকে গ্রেস্কেল করে দেই OpenCV-পাইথন লাইব্রেরি এবং চাক্ষুষ অবস্থান সনাক্ত করতে Canny এজ ডিটেক্টর ব্যবহার করুন। আপনি নিম্নলিখিত বিশদ পদক্ষেপগুলি অনুসরণ করতে পারেন নোটবই.

  1. নথিটিকে গ্রেস্কেলে রূপান্তর করুন।

  1. Canny-Edged নথিতে কনট্যুর সনাক্ত করতে Canny Edge অ্যালগরিদম প্রয়োগ করুন।
  2. প্রাসঙ্গিক মাত্রা সহ আয়তক্ষেত্রাকার কনট্যুরগুলি সনাক্ত করুন।

আপনার ব্যবহারের ক্ষেত্রে নির্ভর করে সনাক্তকরণের নির্ভুলতা বাড়ানোর জন্য আপনি কয়েকটি পরামিতি আরও টিউন এবং অপ্টিমাইজ করতে পারেন:

  • ন্যূনতম উচ্চতা এবং প্রস্থ - এই পরামিতিগুলি চাক্ষুষ সনাক্তকরণের জন্য ন্যূনতম উচ্চতা এবং প্রস্থ থ্রেশহোল্ডগুলিকে সংজ্ঞায়িত করে৷ এটি পৃষ্ঠার আকারের শতাংশে প্রকাশ করা হয়।
  • প্যাডিং – যখন একটি আয়তক্ষেত্রের কনট্যুর শনাক্ত করা হয়, তখন আমরা পৃষ্ঠার মোট এলাকায় কিছুটা নমনীয়তার জন্য অতিরিক্ত প্যাডিং এলাকা সংজ্ঞায়িত করি। এটি এমন ক্ষেত্রে সহায়ক যেখানে ভিজ্যুয়ালগুলির পাঠ্যগুলি স্পষ্টভাবে সীমাবদ্ধ আয়তক্ষেত্রাকার অঞ্চলগুলির ভিতরে নেই৷

সুবিধাগুলি এবং অসুবিধাগুলি

এই পদ্ধতির নিম্নলিখিত সুবিধা রয়েছে:

  • এটি বেশিরভাগ ব্যবহারের ক্ষেত্রে সন্তুষ্ট করে
  • এটি বাস্তবায়ন করা সহজ, এবং দ্রুত উঠা এবং চালানো
  • এর সর্বোত্তম পরামিতিগুলি ভাল ফলাফল দেয়

যাইহোক, পদ্ধতির নিম্নলিখিত অসুবিধা আছে:

  • বাউন্ডিং বাক্স বা পার্শ্ববর্তী প্রান্ত ছাড়া ভিজ্যুয়ালগুলির জন্য, কর্মক্ষমতা ভিজ্যুয়ালের ধরণের উপর নির্ভর করে পরিবর্তিত হতে পারে
  • পাঠ্যের একটি ব্লক বড় বাউন্ডিং বাক্সের ভিতরে থাকলে, পুরো পাঠ্য ব্লকটিকে একটি ভিজ্যুয়াল হিসাবে বিবেচনা করা যেতে পারে এবং এই যুক্তি ব্যবহার করে সরানো হতে পারে।

বিকল্প 2: পিক্সেল ঘনত্ব বিশ্লেষণ

আমরা ইমেজ পিক্সেল বিশ্লেষণ করে আমাদের দ্বিতীয় পদ্ধতি বাস্তবায়ন করি। সাধারণ পাঠ্য অনুচ্ছেদগুলি এর লাইনগুলিতে একটি ঘনত্ব স্বাক্ষর বজায় রাখে। আমরা পিক্সেল ঘনত্ব পরিমাপ এবং বিশ্লেষণ করতে পারি পিক্সেল ঘনত্বের সাথে এমন এলাকা চিহ্নিত করতে যা নথির বাকি অংশের মতো নয়। আপনি নিম্নলিখিত বিশদ পদক্ষেপগুলি অনুসরণ করতে পারেন নোটবই.

  1. নথিটিকে গ্রেস্কেলে রূপান্তর করুন।
  2. ধূসর এলাকাকে সাদাতে রূপান্তর করুন।
  3. কালো পিক্সেলের ঘনত্ব গণনা করতে অনুভূমিকভাবে পিক্সেলগুলিকে সঙ্কুচিত করুন৷
  4. নথিটিকে অনুভূমিক স্ট্রাইপ বা সেগমেন্টে বিভক্ত করুন যেগুলি সম্পূর্ণ পাঠ্য নয় (সমস্ত পৃষ্ঠা জুড়ে প্রসারিত) চিহ্নিত করতে।

  1. সম্পূর্ণ পাঠ্য নয় এমন সমস্ত অনুভূমিক অংশগুলির জন্য, পাঠ্য বনাম চিত্রগুলির অঞ্চলগুলি চিহ্নিত করুন৷ এটি সর্বনিম্ন এবং সর্বাধিক কালো পিক্সেল ঘনত্ব থ্রেশহোল্ড ব্যবহার করে বিভাগগুলি ফিল্টার করে করা হয়।
  2. অ-পূর্ণ পাঠ্য হিসাবে চিহ্নিত এলাকাগুলি সরান৷

অ-পাঠ্য এলাকা সনাক্তকরণের নির্ভুলতা অপ্টিমাইজ করতে আপনি নিম্নলিখিত পরামিতিগুলি টিউন করতে পারেন:

  • নন-টেক্সট অনুভূমিক সেগমেন্ট থ্রেশহোল্ড - পৃষ্ঠায় অ-পাঠ্য অনুভূমিক অংশগুলি সনাক্ত করতে ব্যবহৃত সর্বনিম্ন এবং সর্বাধিক কালো পিক্সেল ঘনত্বের থ্রেশহোল্ডগুলি সংজ্ঞায়িত করুন৷
  • নন-টেক্সট উল্লম্ব সেগমেন্ট থ্রেশহোল্ড - পৃষ্ঠায় নন-টেক্সট উল্লম্ব অংশগুলি সনাক্ত করতে ব্যবহৃত সর্বনিম্ন এবং সর্বাধিক কালো পিক্সেল ঘনত্বের থ্রেশহোল্ডগুলি সংজ্ঞায়িত করুন৷
  • উইন্ডো আকার – বিশ্লেষণের জন্য পৃষ্ঠাটি কীভাবে অনুভূমিক এবং উল্লম্ব অংশে বিভক্ত হয় তা নিয়ন্ত্রণ করে (X_WINDOW, Y_WINDOW)। এটি পিক্সেল সংখ্যা দ্বারা সংজ্ঞায়িত করা হয়.
  • ন্যূনতম চাক্ষুষ এলাকা - ক্ষুদ্রতম এলাকাকে সংজ্ঞায়িত করে যেটিকে সরানোর জন্য একটি ভিজ্যুয়াল হিসাবে বিবেচনা করা যেতে পারে। এটি পিক্সেলে সংজ্ঞায়িত করা হয়েছে।
  • ধূসর পরিসীমা থ্রেশহোল্ড - ধূসর ছায়াগুলির জন্য থ্রেশহোল্ড সরানো হবে৷

সুবিধাগুলি এবং অসুবিধাগুলি

এই পদ্ধতি অত্যন্ত কাস্টমাইজযোগ্য. যাইহোক, এর নিম্নলিখিত অসুবিধা রয়েছে:

  • সর্বোত্তম পরামিতিগুলি আরও বেশি সময় নেয় এবং সমাধানের গভীর উপলব্ধি অর্জন করে
  • যদি নথিটি পুরোপুরি সংশোধন করা না হয় (একটি কোণ সহ ক্যামেরা দ্বারা তোলা ছবি), এই পদ্ধতিটি ব্যর্থ হতে পারে।

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে আপনি বিভিন্ন নথি থেকে ভিজ্যুয়াল রিডাক্ট করার দুটি পন্থা বাস্তবায়ন করতে পারেন। উভয় পন্থা বাস্তবায়ন করা সহজ। আপনি উচ্চ-মানের ফলাফল পেতে পারেন এবং আপনার ব্যবহারের ক্ষেত্রে অনুযায়ী যে কোনও পদ্ধতি কাস্টমাইজ করতে পারেন।

অ্যামাজন টেক্সট্র্যাক্টের বিভিন্ন কৌশল সম্পর্কে আরও জানতে, জনসাধারণের কাছে যান AWS নমুনা GitHub রেপো.


লেখক সম্পর্কে

 ইউয়ান জিয়াং মেশিন লার্নিং-এ ফোকাস সহ একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি আমাজন কম্পিউটার ভিশন হিরো প্রোগ্রাম এবং অ্যামাজন মেশিন লার্নিং টেকনিক্যাল ফিল্ড কমিউনিটির সদস্য।

ভিক্টর রেড কথোপকথনমূলক এআই ফোকাস সহ একজন সিনিয়র পার্টনার সলিউশন আর্কিটেক্ট। তিনি অ্যামাজন কম্পিউটার ভিশন হিরো প্রোগ্রামের একজন সদস্যও।

লুইস পিনেদা একজন সিনিয়র পার্টনার ম্যানেজমেন্ট সলিউশন আর্কিটেক্ট। তিনি অ্যামাজন কম্পিউটার ভিশন হিরো প্রোগ্রামের একজন সদস্যও।

মিগুয়েল রোমেরো ক্যালভো AWS মেশিন লার্নিং সলিউশন ল্যাবের একজন ডেটা সায়েন্টিস্ট।

সূত্র: https://aws.amazon.com/blogs/machine-learning/process-text-and-images-in-pdf-documents-with-amazon-textract/

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং ব্লগ