सहयोगात्मक अनुकूलन

आर्म एमएल टूलिंग द्वारा अनुरक्षित

यह दस्तावेज़ परिनियोजन के लिए मशीन लर्निंग मॉडल को अनुकूलित करने के लिए विभिन्न तकनीकों के संयोजन के लिए प्रयोगात्मक एपीआई का अवलोकन प्रदान करता है।

अवलोकन

सहयोगात्मक अनुकूलन एक व्यापक प्रक्रिया है जिसमें एक मॉडल तैयार करने के लिए विभिन्न तकनीकों को शामिल किया गया है, जो तैनाती पर, लक्ष्य विशेषताओं जैसे अनुमान गति, मॉडल आकार और सटीकता का सर्वोत्तम संतुलन प्रदर्शित करता है।

सहयोगी अनुकूलन का विचार संचित अनुकूलन प्रभाव को प्राप्त करने के लिए उन्हें एक के बाद एक लागू करके व्यक्तिगत तकनीकों पर निर्माण करना है। निम्नलिखित अनुकूलन के विभिन्न संयोजन संभव हैं:

इन तकनीकों को एक साथ श्रृंखलाबद्ध करने का प्रयास करते समय उत्पन्न होने वाली समस्या यह है कि किसी एक को लागू करने से आम तौर पर पिछली तकनीक के परिणाम नष्ट हो जाते हैं, उन सभी को एक साथ लागू करने का समग्र लाभ खराब हो जाता है; उदाहरण के लिए, क्लस्टरिंग प्रूनिंग एपीआई द्वारा शुरू की गई विरलता को संरक्षित नहीं करता है। इस समस्या को हल करने के लिए, हम निम्नलिखित प्रयोगात्मक सहयोगी अनुकूलन तकनीकों का परिचय देते हैं:

ये कई परिनियोजन पथ प्रदान करते हैं जिनका उपयोग मशीन लर्निंग मॉडल को संपीड़ित करने और अनुमान के समय हार्डवेयर त्वरण का लाभ उठाने के लिए किया जा सकता है। नीचे दिया गया चित्र कई परिनियोजन पथों को प्रदर्शित करता है जिन्हें वांछित परिनियोजन विशेषताओं वाले मॉडल की खोज में खोजा जा सकता है, जहां लीफ नोड्स परिनियोजन-तैयार मॉडल हैं, जिसका अर्थ है कि वे आंशिक रूप से या पूरी तरह से मात्राबद्ध और tflite प्रारूप में हैं। हरा भरण उन चरणों को इंगित करता है जहां पुनर्प्रशिक्षण/फाइन-ट्यूनिंग की आवश्यकता होती है और एक धराशायी लाल सीमा सहयोगी अनुकूलन चरणों को हाइलाइट करती है। किसी दिए गए नोड पर एक मॉडल प्राप्त करने के लिए इस्तेमाल की जाने वाली तकनीक को संबंधित लेबल में दर्शाया गया है।

collaborative optimization

प्रत्यक्ष, केवल परिमाणीकरण (प्रशिक्षण के बाद या QAT) परिनियोजन पथ ऊपर दिए गए चित्र में छोड़ा गया है।

उपरोक्त परिनियोजन ट्री के तीसरे स्तर पर पूरी तरह से अनुकूलित मॉडल तक पहुँचने का विचार है; हालांकि, अनुकूलन के अन्य स्तरों में से कोई भी संतोषजनक साबित हो सकता है और आवश्यक अनुमान विलंबता/सटीकता व्यापार-बंद प्राप्त कर सकता है, इस मामले में किसी और अनुकूलन की आवश्यकता नहीं है। अनुशंसित प्रशिक्षण प्रक्रिया यह होगी कि लक्ष्य परिनियोजन परिदृश्य पर लागू परिनियोजन ट्री के स्तरों के माध्यम से पुनरावृत्ति की जाए और देखें कि क्या मॉडल अनुमान विलंबता आवश्यकताओं को पूरा करता है और यदि नहीं, तो मॉडल को आगे संपीड़ित करने और दोहराने के लिए संबंधित सहयोगी अनुकूलन तकनीक का उपयोग करें। जब तक कि मॉडल पूरी तरह से अनुकूलित (छंटनी, क्लस्टर, और मात्राबद्ध) न हो, यदि आवश्यक हो।

नीचे दिया गया आंकड़ा सहयोगात्मक अनुकूलन पाइपलाइन से गुजरने वाले नमूना भार कर्नेल के घनत्व भूखंडों को दिखाता है।

collaborative optimization density plot

परिणाम एक मात्रात्मक परिनियोजन मॉडल है जिसमें अद्वितीय मूल्यों की कम संख्या के साथ-साथ विरल भार की एक महत्वपूर्ण संख्या है, जो प्रशिक्षण समय पर निर्दिष्ट लक्ष्य विरलता पर निर्भर करता है। महत्वपूर्ण मॉडल संपीड़न लाभों के अलावा, विशिष्ट हार्डवेयर समर्थन इन विरल, क्लस्टर मॉडल का लाभ उठा सकते हैं ताकि अनुमान विलंबता को काफी कम किया जा सके।

परिणाम

PQAT और CQAT सहयोगी अनुकूलन पथों के साथ प्रयोग करते समय हमें प्राप्त कुछ सटीकता और संपीड़न परिणाम नीचे दिए गए हैं।

विरलता-संरक्षण परिमाणीकरण जागरूक प्रशिक्षण (PQAT)

नमूना सामान आधारभूत छँटाई मॉडल (50% विरलता) क्यूएटी मॉडल पीक्यूएटी मॉडल
डीएस-सीएनएन-एल FP32 Top1 शुद्धता 95.23% 94.80% (नकली INT8) 94.721% (नकली INT8) 94.128%
INT8 पूर्ण पूर्णांक परिमाणीकरण 94.48% 93.80% 94.72% 94.13%
दबाव 528,128 → 434,879 (17.66%) 528,128 → 334,154 (36.73%) 512,224 → 403,261 (21.27%) 512,032 → 303,997 (40.63%)
मोबाइलनेट_v1-224 FP32 शीर्ष 1 शुद्धता 70.99% 70.11% (नकली INT8) 70.67% (नकली INT8) 70.29%
INT8 पूर्ण पूर्णांक परिमाणीकरण 69.37% 67.82% 70.67% 70.29%
दबाव 4,665,520 → 3,880,331 (16.83%) 4,665,520 → 2,939,734 (37.00%) 4,569,416 → 3,808,781 (16.65%) 4,569,416 → 2,869,600 (37.20%)

क्लस्टर-संरक्षण क्वांटिज़ेशन जागरूक प्रशिक्षण (सीक्यूएटी)

नमूना सामान आधारभूत क्लस्टर मॉडल क्यूएटी मॉडल सीक्यूएटी मॉडल
CIFAR-10 . पर Mobilenet_v1 FP32 Top1 शुद्धता 94.88% 94.48% (नकली INT8) 94.80% (नकली INT8) 94.60%
INT8 पूर्ण पूर्णांक परिमाणीकरण 94.65% 94.41% 94.77% 94.52%
आकार 3.00 एमबी 2.00 एमबी 2.84 एमबी 1.94 एमबी
ImageNet पर Mobilenet_v1 FP32 शीर्ष 1 शुद्धता 71.07% 65.30% (नकली INT8) 70.39% (नकली INT8) 65.35%
INT8 पूर्ण पूर्णांक परिमाणीकरण 69.34% 60.60% 70.35% 65.42%
दबाव 4,665,568 → 3,886,277 (16.7%) 4,665,568 → 3,035,752 (34.9%) 4,569,416 → 3,804,871 (16.7%) 4,569,472 → 2,912,655 (36.25%)

प्रति चैनल क्लस्टर किए गए मॉडल के लिए CQAT और PCQAT परिणाम

नीचे दिए गए परिणाम प्रति चैनल क्लस्टरिंग तकनीक के साथ प्राप्त किए जाते हैं। वे बताते हैं कि यदि मॉडल की दृढ़ परतें प्रति चैनल क्लस्टर की जाती हैं, तो मॉडल सटीकता अधिक होती है। यदि आपके मॉडल में कई दृढ़ परतें हैं, तो हम अनुशंसा करते हैं कि आप प्रति चैनल क्लस्टर करें। संपीड़न अनुपात वही रहता है, लेकिन मॉडल सटीकता अधिक होगी। मॉडल ऑप्टिमाइज़ेशन पाइपलाइन हमारे प्रयोगों में 'क्लस्टर -> क्लस्टर संरक्षित QAT -> पोस्ट ट्रेनिंग क्वांटिज़ेशन, int8' है।

नमूना संकुल -> CQAT, int8 परिमाणित प्रति चैनल क्लस्टर किया गया -> CQAT, int8 परिमाणित
डीएस-सीएनएन-एल 95.949% 96.44%
मोबाइलनेट-वी2 71.538% 72.638%
MobileNet-V2 (छंटनी) 71.45% 71.901%

उदाहरण

यहां वर्णित सहयोगी अनुकूलन तकनीकों के एंड-टू-एंड उदाहरणों के लिए, कृपया CQAT , PQAT , विरल-संरक्षण क्लस्टरिंग और PCQAT उदाहरण नोटबुक देखें।