সাহায্য Kaggle উপর TensorFlow সঙ্গে গ্রেট বেরিয়ার রিফ রক্ষা চ্যালেঞ্জ যোগদান

বিভাজন

চিত্র বিভাজন হ'ল ডিজিটাল চিত্রকে একাধিক বিভাগে বিভক্ত করার প্রক্রিয়া (পিক্সেলের সেট, যা চিত্র আইটেম হিসাবেও পরিচিত)। বিভাগকরণের লক্ষ্য হ'ল সরল করে এবং / অথবা কোনও চিত্রের উপস্থাপনা এমন কিছুতে পরিবর্তন করা যা আরও অর্থবহ এবং বিশ্লেষণ করা সহজ।

নিম্নলিখিত চিত্রটি অ্যান্ড্রয়েডে চিত্র সেগমেন্টেশন মডেলের আউটপুট দেখায়। মডেলটি উচ্চ নির্ভুলতার সাথে লক্ষ্যযুক্ত বস্তুগুলির উপরে একটি মুখোশ তৈরি করবে।

এবার শুরু করা যাক

আপনি যদি টেনসরফ্লো লাইটে নতুন হন এবং অ্যান্ড্রয়েড বা আইওএস নিয়ে কাজ করছেন তবে আপনাকে নীচের উদাহরণগুলি প্রয়োগ করতে হবে যা আপনাকে শুরু করতে সহায়তা করতে পারে।

কোডের কয়েকটি লাইনের মধ্যে চিত্র বিভাগের মডেলগুলিকে একীভূত করতে আপনি টেনসরফ্লো লাইট টাস্ক লাইব্রেরি থেকে আউট-অফ-বক্স এপিআই লাভ করতে পারেন। টেনসরফ্লো লাইট ইন্টারপ্রেটার জাভা এপিআই ব্যবহার করে আপনি মডেলটি সংহত করতে পারেন।

নীচের অ্যান্ড্রয়েড উদাহরণটি যথাক্রমে lib_task_api এবং lib_interpreter হিসাবে উভয় পদ্ধতির প্রয়োগ বাস্তবায়িত করে।

অ্যান্ড্রয়েড উদাহরণ দেখুন

আইওএস উদাহরণ দেখুন

আপনি যদি অ্যান্ড্রয়েড বা আইওএস ব্যতীত অন্য কোনও প্ল্যাটফর্ম ব্যবহার করছেন বা আপনি টেনসরফ্লো লাইট এপিআইয়ের সাথে ইতিমধ্যে পরিচিত, আপনি আমাদের স্টার্টার ইমেজ সেগমেন্টেশন মডেলটি ডাউনলোড করতে পারেন।

স্টার্টার মডেলটি ডাউনলোড করুন

মডেল বর্ণনা

ডিপল্যাবটি সিনমেটিক ইমেজ বিভাজনের জন্য একটি অত্যাধুনিক গভীর শেখার মডেল, যেখানে ইনপুট চিত্রের প্রতিটি পিক্সেলের জন্য শব্দার্থ লেবেল (যেমন ব্যক্তি, কুকুর, বিড়াল) নির্ধারণের লক্ষ্য।

কিভাবে এটা কাজ করে

সিনমেটিক ইমেজ বিভাজন একটি চিত্রের প্রতিটি পিক্সেল একটি নির্দিষ্ট শ্রেণীর সাথে যুক্ত কিনা তা ভবিষ্যদ্বাণী করে। এটি বস্তু সনাক্তকরণের বিপরীতে, যা আয়তক্ষেত্রাকার অঞ্চলে বস্তুগুলি সনাক্ত করে এবং চিত্রের শ্রেণিবিন্যাস , যা সামগ্রিক চিত্রকে শ্রেণিবদ্ধ করে।

বর্তমান বাস্তবায়নে নিম্নলিখিত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত রয়েছে:

  1. ডিপএলএভিভি 1: ডিপ কনভোলিউশনাল নিউরাল নেটওয়ার্কগুলির মধ্যে বৈশিষ্ট্য প্রতিক্রিয়াগুলি গণনা করা হয় এমন রেজোলিউশনটি স্পষ্টভাবে নিয়ন্ত্রণ করতে আমরা অ্যাট্রাস কনভোলশনটি ব্যবহার করি।
  2. ডিপএলএভিভি 2: আমরা একাধিক নমুনা হার এবং কার্যকর ক্ষেত্রের দর্শনগুলির ফিল্টার সহ একাধিক স্কেলগুলিতে দৃ objects়ভাবে বিভাগগুলিকে অবিচ্ছিন্ন স্পেশিয়াল পিরামিড পুলিং (এএসপিপি) ব্যবহার করি।
  3. ডিপএলএভিভি 3: দীর্ঘতর পরিসরের তথ্য ক্যাপচারের জন্য আমরা চিত্র-স্তরের বৈশিষ্ট্য [5, 6] সহ এএসপিপি মডিউলটি বাড়িয়েছি। প্রশিক্ষণের সুবিধার্থে আমরা ব্যাচের সাধারণীকরণ [7] পরামিতিগুলিও অন্তর্ভুক্ত করি। বিশেষত, আমরা প্রশিক্ষণ এবং মূল্যায়নের সময় বিভিন্ন আউটপুট স্ট্রাইডে আউটপুট বৈশিষ্ট্যগুলি সন্ধান করার জন্য অ্যাট্রাস কনভোলজেশন প্রয়োগ করি, যা দক্ষতার সাথে বিএনপিকে আউটপুট স্ট্রাইড = 16 এ দক্ষতার সাথে সক্ষম করে এবং মূল্যায়নের সময় আউটপুট স্ট্রাইড = 8 এ একটি উচ্চ কার্যকারিতা অর্জন করে।
  4. ডিপএলএভিভি 3 +: আমরা বিশেষত অবজেক্টের সীমানা বরাবর বিভাগের ফলাফলগুলি পরিমার্জন করতে একটি সহজ তবে কার্যকর ডিকোডার মডিউল অন্তর্ভুক্ত করার জন্য ডিপএলএবভি 3 কে প্রসারিত করি। তদ্ব্যতীত, এই এনকোডার-ডিকোডার কাঠামোটিতে যেকোন ব্যক্তি নির্বিচারে এক্সট্রাক্ট এনকোডার বৈশিষ্ট্যগুলি ট্রেড-অফ যথার্থতা এবং রানটাইম-এর জন্য অ্যাট্রাস কনভোলজ দ্বারা নিয়ন্ত্রণ করতে পারে।

পারফরম্যান্স মানদণ্ড

পারফরম্যান্স বেঞ্চমার্ক নম্বরগুলি এখানে বর্ণিত সরঞ্জামটির সাহায্যে উত্পন্ন হয়।

ণশড মডেল আকার যন্ত্র জিপিইউ সিপিইউ
ডিপ্লাব ভি 3 2.7 এমবি পিক্সেল 3 (অ্যান্ড্রয়েড 10) 16 মিমি 37 মিমি *
পিক্সেল 4 (অ্যান্ড্রয়েড 10) 20 মিমি ২৩ মিলস *
আইফোন এক্সএস (আইওএস 12.4.1) 16 মিমি 25 মিমি **

* 4 টি থ্রেড ব্যবহৃত হয়েছে।

** সেরা পারফরম্যান্স ফলাফলের জন্য আইফোনে 2 টি থ্রেড ব্যবহৃত হয়েছে।

আরও পড়া এবং সংস্থান