ध्यान दें: TensorFlow Lite अब Google AI Edge का हिस्सा है। नवीनतम दस्तावेज़ अब ai.google.dev/edge/lite पर है। और अधिक जानें

इस पेज का अनुवाद Cloud Translation API से किया गया है.

मुद्रा अनुमान

मुद्रा अनुमान एक एमएल मॉडल का उपयोग करके शरीर के प्रमुख जोड़ों (मुख्य बिंदुओं) के स्थानिक स्थानों का अनुमान लगाकर किसी छवि या वीडियो से किसी व्यक्ति की मुद्रा का अनुमान लगाने का कार्य है।

शुरू हो जाओ

यदि आप TensorFlow Lite में नए हैं और Android या iOS के साथ काम कर रहे हैं, तो निम्नलिखित उदाहरण एप्लिकेशन देखें जो आरंभ करने में आपकी सहायता कर सकते हैं।

एंड्रॉइड उदाहरण आईओएस उदाहरण

यदि आप TensorFlow Lite API से परिचित हैं, तो स्टार्टर मूवनेट पोज़ अनुमान मॉडल और सहायक फ़ाइलें डाउनलोड करें।

स्टार्टर मॉडल डाउनलोड करें

यदि आप वेब ब्राउज़र पर पोज़ अनुमान आज़माना चाहते हैं, तो TensorFlow JS डेमो देखें।

मॉडल वर्णन

यह काम किस प्रकार करता है

मुद्रा अनुमान कंप्यूटर दृष्टि तकनीकों को संदर्भित करता है जो छवियों और वीडियो में मानव आकृतियों का पता लगाता है, ताकि कोई यह निर्धारित कर सके, उदाहरण के लिए, किसी छवि में किसी की कोहनी कहां दिखाई देती है। इस तथ्य से अवगत होना महत्वपूर्ण है कि पोज़ अनुमान केवल यह अनुमान लगाता है कि शरीर के प्रमुख जोड़ कहाँ हैं और यह नहीं पहचानता कि छवि या वीडियो में कौन है।

पोज़ अनुमान मॉडल इनपुट के रूप में एक संसाधित कैमरा छवि लेता है और मुख्य बिंदुओं के बारे में जानकारी आउटपुट करता है। पता लगाए गए मुख्य बिंदुओं को 0.0 और 1.0 के बीच आत्मविश्वास स्कोर के साथ एक भाग आईडी द्वारा अनुक्रमित किया जाता है। कॉन्फिडेंस स्कोर उस संभावना को इंगित करता है कि उस स्थिति में एक मुख्य बिंदु मौजूद है।

हम दो TensorFlow Lite पोज़ अनुमान मॉडल का संदर्भ कार्यान्वयन प्रदान करते हैं:

मूवनेट: अत्याधुनिक मुद्रा अनुमान मॉडल दो स्वादों में उपलब्ध है: प्रकाश और थंडर। नीचे अनुभाग में इन दोनों के बीच तुलना देखें।
पोज़नेट: पिछली पीढ़ी का पोज़ अनुमान मॉडल 2017 में जारी किया गया था।

मुद्रा अनुमान मॉडल द्वारा पता लगाए गए विभिन्न शारीरिक जोड़ों को नीचे सारणीबद्ध किया गया है:

पहचान	भाग
0	नाक
1	बाईं आंख
2	दाहिनी आंख
3	बाँयां कान
4	दाहिना कान
5	बायाँ कंधा
6	दायां कंधा
7	बायींकोहनी
8	दाहिनी कोहनी
9	बाईं कलाई
10	दाहिनी कलाई
11	बायां कूल्हा
12	दाहिना कूल्हा
13	बायां घुटना
14	दाहिना घुटना
15	बायां टखना
16	दाहिना टखना

एक उदाहरण आउटपुट नीचे दिखाया गया है:

मुद्रा अनुमान दर्शाने वाला एनीमेशन

प्रदर्शन मानदंड

मूवनेट दो स्वादों में उपलब्ध है:

MoveNet.Lightning थंडर संस्करण की तुलना में छोटा, तेज़ लेकिन कम सटीक है। यह आधुनिक स्मार्टफ़ोन पर वास्तविक समय में चल सकता है।
MoveNet.Thunder अधिक सटीक संस्करण है, लेकिन लाइटनिंग से बड़ा और धीमा भी है। यह उन उपयोग मामलों के लिए उपयोगी है जिनमें उच्च सटीकता की आवश्यकता होती है।

मूवनेट विभिन्न प्रकार के डेटासेट पर पोज़नेट से बेहतर प्रदर्शन करता है, विशेष रूप से फिटनेस एक्शन छवियों वाली छवियों में। इसलिए, हम पोज़नेट के बजाय मूवनेट का उपयोग करने की सलाह देते हैं।

प्रदर्शन बेंचमार्क नंबर यहां वर्णित टूल से तैयार किए जाते हैं। सटीकता (एमएपी) संख्याओं को COCO डेटासेट के एक सबसेट पर मापा जाता है जिसमें हम केवल एक व्यक्ति को शामिल करने के लिए प्रत्येक छवि को फ़िल्टर और क्रॉप करते हैं।

नमूना	आकार (एमबी)	नक्शा	विलंबता (एमएस)
नमूना	आकार (एमबी)	नक्शा	पिक्सेल 5 - सीपीयू 4 थ्रेड्स	पिक्सेल 5 - जीपीयू	रास्पबेरी पाई 4 - सीपीयू 4 थ्रेड
मूवनेट.थंडर (FP16 परिमाणित)	12.6एमबी	72.0	155ms	45ms	594ms
मूवनेट.थंडर (INT8 परिमाणित)	7.1एमबी	68.9	100ms	52ms	251ms
मूवनेट.लाइटनिंग (एफपी16 परिमाणित)	4.8एमबी	63.0	60ms	25 मि.से	186ms
MoveNet.Lightning (INT8 परिमाणित)	संचित करें 2.9MB	57.4	52ms	28ms	95ms
पोज़नेट(मोबाइलनेटV1 बैकबोन, एफपी32)	13.3एमबी	45.6	80ms	40ms	338ms

आगे पढ़ना और संसाधन

MoveNet और TensorFlow Lite का उपयोग करके मुद्रा अनुमान के बारे में अधिक जानने के लिए इस ब्लॉग पोस्ट को देखें।
वेब पर मुद्रा अनुमान के बारे में अधिक जानने के लिए इस ब्लॉग पोस्ट को देखें।
TensorFlow हब के एक मॉडल का उपयोग करके Python पर MoveNet चलाने के बारे में जानने के लिए इस ट्यूटोरियल को देखें।
कोरल/एजटीपीयू एज डिवाइसों पर पोज़ अनुमान को बहुत तेजी से चला सकता है। अधिक विवरण के लिए EdgeTPU-अनुकूलित मॉडल देखें।
पोज़नेट पेपर यहां पढ़ें

इसके अलावा, मुद्रा अनुमान के इन उपयोग मामलों को भी देखें।