मुद्रा अनुमान एक एमएल मॉडल का उपयोग करके शरीर के प्रमुख जोड़ों (मुख्य बिंदुओं) के स्थानिक स्थानों का अनुमान लगाकर किसी छवि या वीडियो से किसी व्यक्ति की मुद्रा का अनुमान लगाने का कार्य है।
शुरू हो जाओ
यदि आप TensorFlow Lite में नए हैं और Android या iOS के साथ काम कर रहे हैं, तो निम्नलिखित उदाहरण एप्लिकेशन देखें जो आरंभ करने में आपकी सहायता कर सकते हैं।
यदि आप TensorFlow Lite API से परिचित हैं, तो स्टार्टर मूवनेट पोज़ अनुमान मॉडल और सहायक फ़ाइलें डाउनलोड करें।
यदि आप वेब ब्राउज़र पर पोज़ अनुमान आज़माना चाहते हैं, तो TensorFlow JS डेमो देखें।
मॉडल वर्णन
यह काम किस प्रकार करता है
मुद्रा अनुमान कंप्यूटर दृष्टि तकनीकों को संदर्भित करता है जो छवियों और वीडियो में मानव आकृतियों का पता लगाता है, ताकि कोई यह निर्धारित कर सके, उदाहरण के लिए, किसी छवि में किसी की कोहनी कहां दिखाई देती है। इस तथ्य से अवगत होना महत्वपूर्ण है कि पोज़ अनुमान केवल यह अनुमान लगाता है कि शरीर के प्रमुख जोड़ कहाँ हैं और यह नहीं पहचानता कि छवि या वीडियो में कौन है।
पोज़ अनुमान मॉडल इनपुट के रूप में एक संसाधित कैमरा छवि लेता है और मुख्य बिंदुओं के बारे में जानकारी आउटपुट करता है। पता लगाए गए मुख्य बिंदुओं को 0.0 और 1.0 के बीच आत्मविश्वास स्कोर के साथ एक भाग आईडी द्वारा अनुक्रमित किया जाता है। कॉन्फिडेंस स्कोर उस संभावना को इंगित करता है कि उस स्थिति में एक मुख्य बिंदु मौजूद है।
हम दो TensorFlow Lite पोज़ अनुमान मॉडल का संदर्भ कार्यान्वयन प्रदान करते हैं:
- मूवनेट: अत्याधुनिक मुद्रा अनुमान मॉडल दो स्वादों में उपलब्ध है: प्रकाश और थंडर। नीचे अनुभाग में इन दोनों के बीच तुलना देखें।
- पोज़नेट: पिछली पीढ़ी का पोज़ अनुमान मॉडल 2017 में जारी किया गया था।
मुद्रा अनुमान मॉडल द्वारा पता लगाए गए विभिन्न शारीरिक जोड़ों को नीचे सारणीबद्ध किया गया है:
पहचान | भाग |
---|---|
0 | नाक |
1 | बाईं आंख |
2 | दाहिनी आंख |
3 | बाँयां कान |
4 | दाहिना कान |
5 | बायाँ कंधा |
6 | दायां कंधा |
7 | बायींकोहनी |
8 | दाहिनी कोहनी |
9 | बाईं कलाई |
10 | दाहिनी कलाई |
11 | बायां कूल्हा |
12 | दाहिना कूल्हा |
13 | बायां घुटना |
14 | दाहिना घुटना |
15 | बायां टखना |
16 | दाहिना टखना |
एक उदाहरण आउटपुट नीचे दिखाया गया है:
प्रदर्शन मानदंड
मूवनेट दो स्वादों में उपलब्ध है:
- MoveNet.Lightning थंडर संस्करण की तुलना में छोटा, तेज़ लेकिन कम सटीक है। यह आधुनिक स्मार्टफ़ोन पर वास्तविक समय में चल सकता है।
- MoveNet.Thunder अधिक सटीक संस्करण है, लेकिन लाइटनिंग से बड़ा और धीमा भी है। यह उन उपयोग मामलों के लिए उपयोगी है जिनमें उच्च सटीकता की आवश्यकता होती है।
मूवनेट विभिन्न प्रकार के डेटासेट पर पोज़नेट से बेहतर प्रदर्शन करता है, विशेष रूप से फिटनेस एक्शन छवियों वाली छवियों में। इसलिए, हम पोज़नेट के बजाय मूवनेट का उपयोग करने की सलाह देते हैं।
प्रदर्शन बेंचमार्क नंबर यहां वर्णित टूल से तैयार किए जाते हैं। सटीकता (एमएपी) संख्याओं को COCO डेटासेट के एक सबसेट पर मापा जाता है जिसमें हम केवल एक व्यक्ति को शामिल करने के लिए प्रत्येक छवि को फ़िल्टर और क्रॉप करते हैं।
नमूना | आकार (एमबी) | नक्शा | विलंबता (एमएस) | ||
---|---|---|---|---|---|
पिक्सेल 5 - सीपीयू 4 थ्रेड्स | पिक्सेल 5 - जीपीयू | रास्पबेरी पाई 4 - सीपीयू 4 थ्रेड | |||
मूवनेट.थंडर (FP16 परिमाणित) | 12.6एमबी | 72.0 | 155ms | 45ms | 594ms |
मूवनेट.थंडर (INT8 परिमाणित) | 7.1एमबी | 68.9 | 100ms | 52ms | 251ms |
मूवनेट.लाइटनिंग (एफपी16 परिमाणित) | 4.8एमबी | 63.0 | 60ms | 25 मि.से | 186ms |
MoveNet.Lightning (INT8 परिमाणित) | संचित करें 2.9MB | 57.4 | 52ms | 28ms | 95ms |
पोज़नेट(मोबाइलनेटV1 बैकबोन, एफपी32) | 13.3एमबी | 45.6 | 80ms | 40ms | 338ms |
आगे पढ़ना और संसाधन
- MoveNet और TensorFlow Lite का उपयोग करके मुद्रा अनुमान के बारे में अधिक जानने के लिए इस ब्लॉग पोस्ट को देखें।
- वेब पर मुद्रा अनुमान के बारे में अधिक जानने के लिए इस ब्लॉग पोस्ट को देखें।
- TensorFlow हब के एक मॉडल का उपयोग करके Python पर MoveNet चलाने के बारे में जानने के लिए इस ट्यूटोरियल को देखें।
- कोरल/एजटीपीयू एज डिवाइसों पर पोज़ अनुमान को बहुत तेजी से चला सकता है। अधिक विवरण के लिए EdgeTPU-अनुकूलित मॉडल देखें।
- पोज़नेट पेपर यहां पढ़ें
इसके अलावा, मुद्रा अनुमान के इन उपयोग मामलों को भी देखें।