সাহায্য Kaggle উপর TensorFlow সঙ্গে গ্রেট বেরিয়ার রিফ রক্ষা চ্যালেঞ্জ যোগদান

পোজ অনুমান

পোজ অনুমান হল একটি এমএল মডেল ব্যবহার করে একটি ছবি বা ভিডিও থেকে একজন ব্যক্তির পোজ অনুমান করার মাধ্যমে শরীরের মূল জয়েন্টগুলির স্থানিক অবস্থান (কীপয়েন্ট) অনুমান করা।

এবার শুরু করা যাক

আপনি যদি TensorFlow Lite এ নতুন হন এবং অ্যান্ড্রয়েড বা iOS এর সাথে কাজ করছেন, তাহলে নিম্নলিখিত উদাহরণ অ্যাপ্লিকেশনগুলি এক্সপ্লোর করুন যা আপনাকে শুরু করতে সাহায্য করতে পারে।

অ্যান্ড্রয়েড উদাহরণ আইওএস উদাহরণ

আপনার সাথে পরিচিত থাকেন TensorFlow লাইট API গুলি , স্টার্টার MoveNet জাহির প্রাক্কলন মডেল এবং সমর্থনকারী ফাইল ডাউনলোড করুন।

স্টার্টার মডেল ডাউনলোড করুন

আপনি একটি ওয়েব ব্রাউজারে জাহির প্রাক্কলন চেষ্টা করতে চান তাহলে, খুঁজে বার করো TensorFlow জাতীয় ডেমো

মডেল বর্ণনা

কিভাবে এটা কাজ করে

পোজ অনুমান বলতে কম্পিউটার ভিশন টেকনিককে বোঝায় যা ছবি এবং ভিডিওতে মানুষের পরিসংখ্যান সনাক্ত করে, যাতে কেউ নির্ধারণ করতে পারে, উদাহরণস্বরূপ, যেখানে কারো কনুই একটি ছবিতে দেখা যায়। এই বিষয়ে সচেতন হওয়া গুরুত্বপূর্ণ যে ভঙ্গি অনুমান কেবল অনুমান করে যে শরীরের মূল জয়েন্টগুলি কোথায় এবং কোন ছবি বা ভিডিওতে কে আছে তা সনাক্ত করে না।

পোজ আনুমানিক মডেলগুলি একটি প্রক্রিয়াকৃত ক্যামেরা ইমেজকে ইনপুট হিসেবে নেয় এবং কীপয়েন্ট সম্পর্কে তথ্য আউটপুট করে। সনাক্ত করা মূল পয়েন্টগুলি একটি পার্ট আইডি দ্বারা সূচী করা হয়, যার মধ্যে একটি আত্মবিশ্বাস স্কোর 0.0 এবং 1.0 এর মধ্যে থাকে। আত্মবিশ্বাস স্কোর সম্ভাব্যতা নির্দেশ করে যে সেই অবস্থানে একটি কীপয়েন্ট বিদ্যমান।

আমরা দুটি TensorFlow Lite পোজ অনুমান মডেলের রেফারেন্স বাস্তবায়ন প্রদান করি:

  • মুভনেট: অত্যাধুনিক পোজ অনুমান মডেল দুটি স্বাদে উপলব্ধ: লাইটিং এবং থান্ডার। নীচের বিভাগে এই দুটির মধ্যে তুলনা দেখুন।
  • পোসনেট: আগের প্রজন্মের পোজ অনুমান মডেল 2017 সালে প্রকাশিত হয়েছিল।

পোজ অনুমান মডেল দ্বারা সনাক্ত করা বিভিন্ন শরীরের জয়েন্টগুলি নীচে সারণিযুক্ত:

আইডি অংশ
0 নাক
বাম চোখ
2 যোগ্য দৃষ্টি
3 বাম কান
4 ডান কান
5 বাম কাঁধে
6 ডান কাঁধ
7 বাম কনুই
8 ডান কনুই
9 বাম হাতের কবজি
10 ডান হাতের কব্জি
11 বামহিপ
12 ডান হিপ
13 বাম হাঁটু
14 ডান হাঁটু
15 গোড়ালি
16 ডান গোড়ালি

একটি উদাহরণ আউটপুট নিচে দেখানো হয়েছে:

পোজ অনুমান দেখানো অ্যানিমেশন

কর্মক্ষমতা মানদণ্ড

মুভনেট দুটি স্বাদে পাওয়া যায়:

  • MoveNet.Lightning ছোট, দ্রুত কিন্তু থান্ডার সংস্করণের চেয়ে কম নির্ভুল। এটি আধুনিক স্মার্টফোনে রিয়েলটাইমে চলতে পারে।
  • MoveNet.Thunder আরো সঠিক সংস্করণ কিন্তু বাজের চেয়ে বড় এবং ধীর। এটি উচ্চতর নির্ভুলতা প্রয়োজন এমন ব্যবহারের ক্ষেত্রে দরকারী।

মুভনেট বিভিন্ন ধরনের ডেটাসেটে পোসনেটকে ছাড়িয়ে যায়, বিশেষ করে ফিটনেস অ্যাকশন ইমেজযুক্ত ছবিতে। অতএব, আমরা পোসনেটের উপর মুভনেট ব্যবহার করার পরামর্শ দিই।

পারফরমেন্স বেঞ্চমার্ক সংখ্যার টুল দিয়ে তৈরি হয় এখানে বর্ণিত । যথার্থতা (MAP) সংখ্যার একটি উপসেট উপর মাপা হয় কোকো ডেটা সেটটি যা আমরা ফিল্টার করুন এবং প্রতিটি ইমেজ ক্রপ কেবলমাত্র একজনের ধারণ।

মডেল আকার (এমবি) মানচিত্র বিলম্ব (এমএস)
পিক্সেল 5 - সিপিইউ 4 থ্রেড পিক্সেল 5 - জিপিইউ রাস্পবেরি পাই 4 - সিপিইউ 4 থ্রেড
MoveNet.Thunder (FP16 কোয়ান্টাইজড) 12.6 এমবি 72.0 155ms 45ms 594ms
MoveNet.Thunder (INT8 কোয়ান্টাইজড) 7.1 এমবি 68.9 100ms 52ms 251ms
MoveNet.Lightning (FP16 কোয়ান্টাইজড) 4.8 এমবি 63.0 60ms 25ms 186ms
MoveNet.Lightning (INT8 কোয়ান্টাইজড) 2.9 এমবি 57.4 52ms 28ms 95ms
PoseNet (MobileNetV1 ব্যাকবোন, FP32) 13.3 এমবি 45.6 80ms 40ms 338ms

আরও পড়া এবং সম্পদ

  • এটি ব্যবহার করে দেখুন ব্লগ পোস্ট সম্পর্কে জাহির প্রাক্কলন MoveNet ব্যবহার করে এবং TensorFlow লাইট আরও জানতে।
  • এটি ব্যবহার করে দেখুন ব্লগ পোস্টে ওয়েবে জাহির প্রাক্কলন সম্পর্কে আরো জানতে।
  • এটি ব্যবহার করে দেখুন টিউটোরিয়াল TensorFlow হাব থেকে একটি মডেল ব্যবহার করে পাইথন উপর MoveNet চলমান বিষয়ে জানার জন্য।
  • কোরাল/এজটিপিইউ আইওটি ডিভাইসে পোজ অনুমান অনেক দ্রুত চালাতে পারে। দেখুন EdgeTPU-অপ্টিমাইজ করা মডেলের আরো বিস্তারিত জানার জন্য।
  • PoseNet কাগজ পড়ুন এখানে

এছাড়াও, ভঙ্গি অনুমানের এই ব্যবহারের ক্ষেত্রে দেখুন।