मुद्रा अनुमान

मुद्रा अनुमान एक एमएल मॉडल का उपयोग करके शरीर के प्रमुख जोड़ों (मुख्य बिंदुओं) के स्थानिक स्थानों का अनुमान लगाकर किसी छवि या वीडियो से किसी व्यक्ति की मुद्रा का अनुमान लगाने का कार्य है।

शुरू हो जाओ

यदि आप TensorFlow Lite में नए हैं और Android या iOS के साथ काम कर रहे हैं, तो निम्नलिखित उदाहरण एप्लिकेशन देखें जो आरंभ करने में आपकी सहायता कर सकते हैं।

एंड्रॉइड उदाहरण आईओएस उदाहरण

यदि आप TensorFlow Lite API से परिचित हैं, तो स्टार्टर मूवनेट पोज़ अनुमान मॉडल और सहायक फ़ाइलें डाउनलोड करें।

स्टार्टर मॉडल डाउनलोड करें

यदि आप वेब ब्राउज़र पर पोज़ अनुमान आज़माना चाहते हैं, तो TensorFlow JS डेमो देखें।

मॉडल वर्णन

यह काम किस प्रकार करता है

मुद्रा अनुमान कंप्यूटर दृष्टि तकनीकों को संदर्भित करता है जो छवियों और वीडियो में मानव आकृतियों का पता लगाता है, ताकि कोई यह निर्धारित कर सके, उदाहरण के लिए, किसी छवि में किसी की कोहनी कहां दिखाई देती है। इस तथ्य से अवगत होना महत्वपूर्ण है कि पोज़ अनुमान केवल यह अनुमान लगाता है कि शरीर के प्रमुख जोड़ कहाँ हैं और यह नहीं पहचानता कि छवि या वीडियो में कौन है।

पोज़ अनुमान मॉडल इनपुट के रूप में एक संसाधित कैमरा छवि लेता है और मुख्य बिंदुओं के बारे में जानकारी आउटपुट करता है। पता लगाए गए मुख्य बिंदुओं को 0.0 और 1.0 के बीच आत्मविश्वास स्कोर के साथ एक भाग आईडी द्वारा अनुक्रमित किया जाता है। कॉन्फिडेंस स्कोर उस संभावना को इंगित करता है कि उस स्थिति में एक मुख्य बिंदु मौजूद है।

हम दो TensorFlow Lite पोज़ अनुमान मॉडल का संदर्भ कार्यान्वयन प्रदान करते हैं:

  • मूवनेट: अत्याधुनिक मुद्रा अनुमान मॉडल दो स्वादों में उपलब्ध है: प्रकाश और थंडर। नीचे अनुभाग में इन दोनों के बीच तुलना देखें।
  • पोज़नेट: पिछली पीढ़ी का पोज़ अनुमान मॉडल 2017 में जारी किया गया था।

मुद्रा अनुमान मॉडल द्वारा पता लगाए गए विभिन्न शारीरिक जोड़ों को नीचे सारणीबद्ध किया गया है:

पहचान भाग
0 नाक
1 बाईं आंख
2 दाहिनी आंख
3 बाँयां कान
4 दाहिना कान
5 बायाँ कंधा
6 दायां कंधा
7 बायींकोहनी
8 दाहिनी कोहनी
9 बाईं कलाई
10 दाहिनी कलाई
11 बायां कूल्हा
12 दाहिना कूल्हा
13 बायां घुटना
14 दाहिना घुटना
15 बायां टखना
16 दाहिना टखना

एक उदाहरण आउटपुट नीचे दिखाया गया है:

मुद्रा अनुमान दर्शाने वाला एनीमेशन

प्रदर्शन मानदंड

मूवनेट दो स्वादों में उपलब्ध है:

  • MoveNet.Lightning थंडर संस्करण की तुलना में छोटा, तेज़ लेकिन कम सटीक है। यह आधुनिक स्मार्टफ़ोन पर वास्तविक समय में चल सकता है।
  • MoveNet.Thunder अधिक सटीक संस्करण है, लेकिन लाइटनिंग से बड़ा और धीमा भी है। यह उन उपयोग मामलों के लिए उपयोगी है जिनमें उच्च सटीकता की आवश्यकता होती है।

मूवनेट विभिन्न प्रकार के डेटासेट पर पोज़नेट से बेहतर प्रदर्शन करता है, विशेष रूप से फिटनेस एक्शन छवियों वाली छवियों में। इसलिए, हम पोज़नेट के बजाय मूवनेट का उपयोग करने की सलाह देते हैं।

प्रदर्शन बेंचमार्क नंबर यहां वर्णित टूल से तैयार किए जाते हैं। सटीकता (एमएपी) संख्याओं को COCO डेटासेट के एक सबसेट पर मापा जाता है जिसमें हम केवल एक व्यक्ति को शामिल करने के लिए प्रत्येक छवि को फ़िल्टर और क्रॉप करते हैं।

नमूना आकार (एमबी) नक्शा विलंबता (एमएस)
पिक्सेल 5 - सीपीयू 4 थ्रेड्स पिक्सेल 5 - जीपीयू रास्पबेरी पाई 4 - सीपीयू 4 थ्रेड
मूवनेट.थंडर (FP16 परिमाणित) 12.6एमबी 72.0 155ms 45ms 594ms
मूवनेट.थंडर (INT8 परिमाणित) 7.1एमबी 68.9 100ms 52ms 251ms
मूवनेट.लाइटनिंग (एफपी16 परिमाणित) 4.8एमबी 63.0 60ms 25 मि.से 186ms
MoveNet.Lightning (INT8 परिमाणित) संचित करें 2.9MB 57.4 52ms 28ms 95ms
पोज़नेट(मोबाइलनेटV1 बैकबोन, एफपी32) 13.3एमबी 45.6 80ms 40ms 338ms

आगे पढ़ना और संसाधन

  • MoveNet और TensorFlow Lite का उपयोग करके मुद्रा अनुमान के बारे में अधिक जानने के लिए इस ब्लॉग पोस्ट को देखें।
  • वेब पर मुद्रा अनुमान के बारे में अधिक जानने के लिए इस ब्लॉग पोस्ट को देखें।
  • TensorFlow हब के एक मॉडल का उपयोग करके Python पर MoveNet चलाने के बारे में जानने के लिए इस ट्यूटोरियल को देखें।
  • कोरल/एजटीपीयू एज डिवाइसों पर पोज़ अनुमान को बहुत तेजी से चला सकता है। अधिक विवरण के लिए EdgeTPU-अनुकूलित मॉडल देखें।
  • पोज़नेट पेपर यहां पढ़ें

इसके अलावा, मुद्रा अनुमान के इन उपयोग मामलों को भी देखें।