आर्म एमएल टूलिंग द्वारा अनुरक्षित
यह दस्तावेज़ परिनियोजन के लिए मशीन लर्निंग मॉडल को अनुकूलित करने के लिए विभिन्न तकनीकों के संयोजन के लिए प्रयोगात्मक एपीआई का अवलोकन प्रदान करता है।
अवलोकन
सहयोगात्मक अनुकूलन एक व्यापक प्रक्रिया है जिसमें एक मॉडल तैयार करने के लिए विभिन्न तकनीकों को शामिल किया गया है, जो तैनाती पर, लक्ष्य विशेषताओं जैसे अनुमान गति, मॉडल आकार और सटीकता का सर्वोत्तम संतुलन प्रदर्शित करता है।
सहयोगी अनुकूलन का विचार संचित अनुकूलन प्रभाव को प्राप्त करने के लिए उन्हें एक के बाद एक लागू करके व्यक्तिगत तकनीकों पर निर्माण करना है। निम्नलिखित अनुकूलन के विभिन्न संयोजन संभव हैं:
- वजन छंटाई
- वजन क्लस्टरिंग
परिमाणीकरण
इन तकनीकों को एक साथ श्रृंखलाबद्ध करने का प्रयास करते समय उत्पन्न होने वाली समस्या यह है कि किसी एक को लागू करने से आम तौर पर पिछली तकनीक के परिणाम नष्ट हो जाते हैं, उन सभी को एक साथ लागू करने का समग्र लाभ खराब हो जाता है; उदाहरण के लिए, क्लस्टरिंग प्रूनिंग एपीआई द्वारा शुरू की गई विरलता को संरक्षित नहीं करता है। इस समस्या को हल करने के लिए, हम निम्नलिखित प्रयोगात्मक सहयोगी अनुकूलन तकनीकों का परिचय देते हैं:
- विरल संरक्षण क्लस्टरिंग
- स्पार्सिटी प्रिजर्विंग क्वांटिज़ेशन अवेयर ट्रेनिंग (PQAT)
- क्लस्टर संरक्षण परिमाणीकरण जागरूक प्रशिक्षण (CQAT)
- परिमाणीकरण जागरूक प्रशिक्षण को संरक्षित करते हुए विरलता और क्लस्टर
ये कई परिनियोजन पथ प्रदान करते हैं जिनका उपयोग मशीन लर्निंग मॉडल को संपीड़ित करने और अनुमान के समय हार्डवेयर त्वरण का लाभ उठाने के लिए किया जा सकता है। नीचे दिया गया चित्र कई परिनियोजन पथों को प्रदर्शित करता है जिन्हें वांछित परिनियोजन विशेषताओं वाले मॉडल की खोज में खोजा जा सकता है, जहां लीफ नोड्स परिनियोजन-तैयार मॉडल हैं, जिसका अर्थ है कि वे आंशिक रूप से या पूरी तरह से मात्राबद्ध और tflite प्रारूप में हैं। हरा भरण उन चरणों को इंगित करता है जहां पुनर्प्रशिक्षण/फाइन-ट्यूनिंग की आवश्यकता होती है और एक धराशायी लाल सीमा सहयोगी अनुकूलन चरणों को हाइलाइट करती है। किसी दिए गए नोड पर एक मॉडल प्राप्त करने के लिए इस्तेमाल की जाने वाली तकनीक को संबंधित लेबल में दर्शाया गया है।
प्रत्यक्ष, केवल परिमाणीकरण (प्रशिक्षण के बाद या QAT) परिनियोजन पथ ऊपर दिए गए चित्र में छोड़ा गया है।
उपरोक्त परिनियोजन ट्री के तीसरे स्तर पर पूरी तरह से अनुकूलित मॉडल तक पहुँचने का विचार है; हालांकि, अनुकूलन के अन्य स्तरों में से कोई भी संतोषजनक साबित हो सकता है और आवश्यक अनुमान विलंबता/सटीकता व्यापार-बंद प्राप्त कर सकता है, इस मामले में किसी और अनुकूलन की आवश्यकता नहीं है। अनुशंसित प्रशिक्षण प्रक्रिया यह होगी कि लक्ष्य परिनियोजन परिदृश्य पर लागू परिनियोजन ट्री के स्तरों के माध्यम से पुनरावृत्ति की जाए और देखें कि क्या मॉडल अनुमान विलंबता आवश्यकताओं को पूरा करता है और यदि नहीं, तो मॉडल को आगे संपीड़ित करने और दोहराने के लिए संबंधित सहयोगी अनुकूलन तकनीक का उपयोग करें। जब तक कि मॉडल पूरी तरह से अनुकूलित (छंटनी, क्लस्टर, और मात्राबद्ध) न हो, यदि आवश्यक हो।
नीचे दिया गया आंकड़ा सहयोगात्मक अनुकूलन पाइपलाइन से गुजरने वाले नमूना भार कर्नेल के घनत्व भूखंडों को दिखाता है।
परिणाम एक मात्रात्मक परिनियोजन मॉडल है जिसमें अद्वितीय मूल्यों की कम संख्या के साथ-साथ विरल भार की एक महत्वपूर्ण संख्या है, जो प्रशिक्षण समय पर निर्दिष्ट लक्ष्य विरलता पर निर्भर करता है। महत्वपूर्ण मॉडल संपीड़न लाभों के अलावा, विशिष्ट हार्डवेयर समर्थन इन विरल, क्लस्टर मॉडल का लाभ उठा सकते हैं ताकि अनुमान विलंबता को काफी कम किया जा सके।
परिणाम
PQAT और CQAT सहयोगी अनुकूलन पथों के साथ प्रयोग करते समय हमें प्राप्त कुछ सटीकता और संपीड़न परिणाम नीचे दिए गए हैं।
विरलता-संरक्षण परिमाणीकरण जागरूक प्रशिक्षण (PQAT)
नमूना | सामान | आधारभूत | छँटाई मॉडल (50% विरलता) | क्यूएटी मॉडल | पीक्यूएटी मॉडल |
---|---|---|---|---|---|
डीएस-सीएनएन-एल | FP32 Top1 शुद्धता | 95.23% | 94.80% | (नकली INT8) 94.721% | (नकली INT8) 94.128% |
INT8 पूर्ण पूर्णांक परिमाणीकरण | 94.48% | 93.80% | 94.72% | 94.13% | |
दबाव | 528,128 → 434,879 (17.66%) | 528,128 → 334,154 (36.73%) | 512,224 → 403,261 (21.27%) | 512,032 → 303,997 (40.63%) | |
मोबाइलनेट_v1-224 | FP32 शीर्ष 1 शुद्धता | 70.99% | 70.11% | (नकली INT8) 70.67% | (नकली INT8) 70.29% |
INT8 पूर्ण पूर्णांक परिमाणीकरण | 69.37% | 67.82% | 70.67% | 70.29% | |
दबाव | 4,665,520 → 3,880,331 (16.83%) | 4,665,520 → 2,939,734 (37.00%) | 4,569,416 → 3,808,781 (16.65%) | 4,569,416 → 2,869,600 (37.20%) |
क्लस्टर-संरक्षण क्वांटिज़ेशन जागरूक प्रशिक्षण (सीक्यूएटी)
नमूना | सामान | आधारभूत | क्लस्टर मॉडल | क्यूएटी मॉडल | सीक्यूएटी मॉडल |
---|---|---|---|---|---|
CIFAR-10 . पर Mobilenet_v1 | FP32 Top1 शुद्धता | 94.88% | 94.48% | (नकली INT8) 94.80% | (नकली INT8) 94.60% |
INT8 पूर्ण पूर्णांक परिमाणीकरण | 94.65% | 94.41% | 94.77% | 94.52% | |
आकार | 3.00 एमबी | 2.00 एमबी | 2.84 एमबी | 1.94 एमबी | |
ImageNet पर Mobilenet_v1 | FP32 शीर्ष 1 शुद्धता | 71.07% | 65.30% | (नकली INT8) 70.39% | (नकली INT8) 65.35% |
INT8 पूर्ण पूर्णांक परिमाणीकरण | 69.34% | 60.60% | 70.35% | 65.42% | |
दबाव | 4,665,568 → 3,886,277 (16.7%) | 4,665,568 → 3,035,752 (34.9%) | 4,569,416 → 3,804,871 (16.7%) | 4,569,472 → 2,912,655 (36.25%) |
प्रति चैनल क्लस्टर किए गए मॉडल के लिए CQAT और PCQAT परिणाम
नीचे दिए गए परिणाम प्रति चैनल क्लस्टरिंग तकनीक के साथ प्राप्त किए जाते हैं। वे बताते हैं कि यदि मॉडल की दृढ़ परतें प्रति चैनल क्लस्टर की जाती हैं, तो मॉडल सटीकता अधिक होती है। यदि आपके मॉडल में कई दृढ़ परतें हैं, तो हम अनुशंसा करते हैं कि आप प्रति चैनल क्लस्टर करें। संपीड़न अनुपात वही रहता है, लेकिन मॉडल सटीकता अधिक होगी। मॉडल ऑप्टिमाइज़ेशन पाइपलाइन हमारे प्रयोगों में 'क्लस्टर -> क्लस्टर संरक्षित QAT -> पोस्ट ट्रेनिंग क्वांटिज़ेशन, int8' है। नमूना संकुल -> CQAT, int8 परिमाणित प्रति चैनल क्लस्टर किया गया -> CQAT, int8 परिमाणित डीएस-सीएनएन-एल 95.949% 96.44% मोबाइलनेट-वी2 71.538% 72.638% MobileNet-V2 (छंटनी) 71.45% 71.901%
उदाहरण
यहां वर्णित सहयोगी अनुकूलन तकनीकों के एंड-टू-एंड उदाहरणों के लिए, कृपया CQAT , PQAT , विरल-संरक्षण क्लस्टरिंग और PCQAT उदाहरण नोटबुक देखें।