সাহায্য Kaggle উপর TensorFlow সঙ্গে গ্রেট বেরিয়ার রিফ রক্ষা চ্যালেঞ্জ যোগদান

অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR)

অপটিক্যাল ক্যারেক্টার রিকগনিশন (ওসিআর) হল কম্পিউটার ভিশন এবং মেশিন লার্নিং টেকনিক ব্যবহার করে ছবি থেকে অক্ষর শনাক্ত করার প্রক্রিয়া। এই রেফারেন্স অ্যাপটি কিভাবে OCR করতে TensorFlow Lite ব্যবহার করতে হয়। এটা একটি সমন্বয় ব্যবহার করে টেক্সট সনাক্তকরণ মডেল এবং একটি টেক্সট স্বীকৃতি মডেল একটি OCR করুন পাইপলাইন পাঠ্য অক্ষর চিনতে হিসাবে।

এবার শুরু করা যাক

আপনি যদি TensorFlow Lite এ নতুন হন এবং Android এর সাথে কাজ করছেন, তাহলে আমরা নিম্নলিখিত উদাহরণ অ্যাপ্লিকেশনটি অনুসন্ধান করার সুপারিশ করি যা আপনাকে শুরু করতে সাহায্য করতে পারে।

অ্যান্ড্রয়েডের উদাহরণ

আপনি যদি একটি প্ল্যাটফর্ম অ্যান্ড্রয়েড ছাড়া অন্য ব্যবহার করছেন, অথবা আপনি ইতিমধ্যে এর সাথে পরিচিত থাকেন TensorFlow লাইট API গুলি , আপনি মডেল থেকে ডাউনলোড করতে পারেন মেমরি হাব

কিভাবে এটা কাজ করে

OCR টাস্ক প্রায়ই 2 পর্যায়ে বিভক্ত করা হয়। প্রথমত, আমরা সম্ভাব্য পাঠ্যগুলির চারপাশে আবদ্ধ বাক্সগুলি সনাক্ত করতে একটি পাঠ্য সনাক্তকরণ মডেল ব্যবহার করি। দ্বিতীয়ত, আমরা প্রক্রিয়াকৃত বাউন্ডিং বক্সগুলিকে একটি টেক্সট রিকগনিশন মডেলের মধ্যে সীমাবদ্ধ বাক্সের ভিতরে নির্দিষ্ট অক্ষর নির্ধারণ করি (আমাদের পাঠ্য পুনর্বিবেচনার জন্য নন-ম্যাক্সিমাল দমন, দৃষ্টিভঙ্গি রূপান্তর ইত্যাদি করতে হবে)। আমাদের ক্ষেত্রে, উভয় মডেল TensorFlow হাব থেকে এবং তারা FP16 কোয়ান্টাইজড মডেল।

কর্মক্ষমতা মানদণ্ড

পারফরমেন্স বেঞ্চমার্ক সংখ্যার বর্ণনা টুল দিয়ে তৈরি হয় এখানে

ণশড মডেল সাইজ যন্ত্র সিপিইউ জিপিইউ
পাঠ্য সনাক্তকরণ 45.9 এমবি Pixel 4 (Android 10) 181.93ms* 89.77ms*
পাঠ্য স্বীকৃতি 16.8 এমবি Pixel 4 (Android 10) 338.33ms* এন/এ **

* 4 টি থ্রেড ব্যবহার করা হয়েছে।

** এই মডেলটি GPU প্রতিনিধি ব্যবহার করতে পারেনি কারণ এটি চালানোর জন্য আমাদের TensorFlow অপস প্রয়োজন

ইনপুট

টেক্সট সনাক্তকরণ মডেল একটি 4-ডি গ্রহণ float32 ইনপুট হিসাবে (1, 320, 320, 3) এর টেন্সর।

পাঠ্য স্বীকৃতির মডেল একটি 4-ডি গ্রহণ float32 ইনপুট হিসাবে (1, 31, 200, 1) এর টেন্সর।

আউটপুট

টেক্সট সনাক্তকরণ মডেল আয় একটি 4-ডি float32 বক্স সীমান্ত যেমন আকৃতি টেন্সর (1, 80, 80, 5) এবং একটি 4-ডি float32 আকৃতি (1,80, 80, 5) সনাক্তকরণ স্কোর হিসেবে টেন্সর।

পাঠ্য স্বীকৃতির মডেল ফেরৎ একটি 2-D: float32 আকৃতি টেন্সর (1, 48) বর্ণমালা তালিকা '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ' থেকে ম্যাপিং সূচকের হিসাবে

সীমাবদ্ধতা

  • বর্তমান টেক্সট স্বীকৃতি মডেল ইংরেজি অক্ষর এবং সংখ্যার, তাই শুধুমাত্র ইংরেজি সমর্থিত সঙ্গে সিন্থেটিক ডেটা ব্যবহার প্রশিক্ষিত করা হয়।

  • মডেলগুলি বন্যে ওসিআর -এর জন্য যথেষ্ট সাধারণ নয় (বলুন, স্মার্টফোন ক্যামেরা দ্বারা কম আলোতে তোলা এলোমেলো ছবি)।

তাই আমরা 3 টি Google প্রোডাক্ট লোগো বেছে নিয়েছি শুধুমাত্র TensorFlow Lite দিয়ে কিভাবে OCR করতে হয় তা দেখানোর জন্য। যদি আপনি খুঁজছেন একটি তৈয়ারি ব্যবহারযোগ্য প্রকাশনা গ্রেড OCR করুন পণ্যের জন্য, আপনি বিবেচনা করা উচিত গুগল এমএল কিট । এমএল কিট, যা নীচে টিএফলাইট ব্যবহার করে, বেশিরভাগ ওসিআর ব্যবহারের ক্ষেত্রে যথেষ্ট হওয়া উচিত, তবে এমন কিছু ক্ষেত্রে রয়েছে যেখানে আপনি টিএফলাইট দিয়ে আপনার নিজের ওসিআর সমাধান তৈরি করতে চাইতে পারেন। কিছু উদাহরণ হল:

  • আপনার নিজের পাঠ্য সনাক্তকরণ/স্বীকৃতি TFLite মডেল আছে যা আপনি ব্যবহার করতে চান
  • আপনার বিশেষ ব্যবসার প্রয়োজনীয়তা রয়েছে (যেমন, উল্টো লেখাগুলি স্বীকৃতি দেওয়া) এবং ওসিআর পাইপলাইনটি কাস্টমাইজ করতে হবে
  • আপনি এমএল কিট দ্বারা আচ্ছাদিত নয় এমন ভাষা সমর্থন করতে চান
  • আপনার লক্ষ্যযুক্ত ব্যবহারকারীর ডিভাইসে অগত্যা গুগল প্লে পরিষেবা ইনস্টল করা নেই

তথ্যসূত্র