टीएफएक्स पाइपलाइनों को समझना

एमएलओपीएस मशीन लर्निंग (एमएल) वर्कफ़्लो को स्वचालित, प्रबंधित और ऑडिट करने में मदद करने के लिए डेवऑप्स प्रथाओं को लागू करने का अभ्यास है। एमएल वर्कफ़्लो में ये चरण शामिल हैं:

  • डेटा तैयार करें, विश्लेषण करें और परिवर्तित करें।
  • किसी मॉडल को प्रशिक्षित करें और उसका मूल्यांकन करें।
  • प्रशिक्षित मॉडलों को उत्पादन में तैनात करें।
  • एमएल कलाकृतियों को ट्रैक करें और उनकी निर्भरता को समझें।

इन चरणों को तदर्थ तरीके से प्रबंधित करना कठिन और समय लेने वाला हो सकता है।

टीएफएक्स एक टूलकिट प्रदान करके एमएलओपीएस को लागू करना आसान बनाता है जो आपको विभिन्न ऑर्केस्ट्रेटरों पर अपनी एमएल प्रक्रिया को व्यवस्थित करने में मदद करता है, जैसे: अपाचे एयरफ्लो, अपाचे बीम और क्यूबफ्लो पाइपलाइन। अपने वर्कफ़्लो को TFX पाइपलाइन के रूप में कार्यान्वित करके, आप यह कर सकते हैं:

  • अपनी एमएल प्रक्रिया को स्वचालित करें, जिससे आप नियमित रूप से अपने मॉडल को पुनः प्रशिक्षित, मूल्यांकन और तैनात कर सकते हैं।
  • बड़े डेटासेट और वर्कलोड को संसाधित करने के लिए वितरित कंप्यूट संसाधनों का उपयोग करें।
  • हाइपरपैरामीटर के विभिन्न सेटों के साथ एक पाइपलाइन चलाकर प्रयोग की गति बढ़ाएं।

यह मार्गदर्शिका टीएफएक्स पाइपलाइनों को समझने के लिए आवश्यक मुख्य अवधारणाओं का वर्णन करती है।

विरूपण साक्ष्य

टीएफएक्स पाइपलाइन में चरणों के आउटपुट को आर्टिफैक्ट कहा जाता है। आपके वर्कफ़्लो के बाद के चरण इन कलाकृतियों को इनपुट के रूप में उपयोग कर सकते हैं। इस तरह, TFX आपको वर्कफ़्लो चरणों के बीच डेटा स्थानांतरित करने देता है।

उदाहरण के लिए, ExampleGen मानक घटक क्रमबद्ध उदाहरणों का उत्सर्जन करता है, जो StatisticsGen मानक घटक जैसे घटक इनपुट के रूप में उपयोग करते हैं।

कलाकृतियों को एमएल मेटाडेटा स्टोर में पंजीकृत आर्टिफैक्ट प्रकार के साथ दृढ़ता से टाइप किया जाना चाहिए। एमएल मेटाडेटा में प्रयुक्त अवधारणाओं के बारे में और जानें।

कलाकृतियों के प्रकारों का एक नाम होता है और वे इसके गुणों की एक स्कीमा को परिभाषित करते हैं। आपके एमएल मेटाडेटा स्टोर में कलाकृतियों के प्रकार के नाम अद्वितीय होने चाहिए। टीएफएक्स कई मानक आर्टिफैक्ट प्रकार प्रदान करता है जो जटिल डेटा प्रकारों और मूल्य प्रकारों का वर्णन करता है, जैसे: स्ट्रिंग, पूर्णांक और फ्लोट। आप इन आर्टिफैक्ट प्रकारों का पुन: उपयोग कर सकते हैं या Artifact से प्राप्त कस्टम आर्टिफैक्ट प्रकारों को परिभाषित कर सकते हैं।

पैरामीटर

पैरामीटर पाइपलाइनों के इनपुट हैं जो आपकी पाइपलाइन निष्पादित होने से पहले ज्ञात होते हैं। पैरामीटर्स आपको कोड के बजाय कॉन्फ़िगरेशन के माध्यम से पाइपलाइन, या पाइपलाइन के एक हिस्से के व्यवहार को बदलने देते हैं।

उदाहरण के लिए, आप पाइपलाइन के कोड को बदले बिना हाइपरपैरामीटर के विभिन्न सेटों के साथ पाइपलाइन चलाने के लिए पैरामीटर का उपयोग कर सकते हैं।

पैरामीटर का उपयोग करने से आप अपनी पाइपलाइन को पैरामीटर के विभिन्न सेटों के साथ चलाना आसान बनाकर प्रयोग की गति बढ़ा सकते हैं।

रनटाइम पैरामीटर क्लास के बारे में और जानें।

अवयव

एक घटक एक एमएल कार्य का कार्यान्वयन है जिसे आप अपनी टीएफएक्स पाइपलाइन में एक चरण के रूप में उपयोग कर सकते हैं। घटक निम्न से बने हैं:

  • एक घटक विनिर्देश, जो घटक के इनपुट और आउटपुट कलाकृतियों और घटक के आवश्यक मापदंडों को परिभाषित करता है।
  • एक निष्पादक, जो आपके एमएल वर्कफ़्लो में एक चरण को निष्पादित करने के लिए कोड लागू करता है, जैसे डेटा को अंतर्ग्रहण और परिवर्तित करना या किसी मॉडल का प्रशिक्षण और मूल्यांकन करना।
  • एक घटक इंटरफ़ेस, जो पाइपलाइन में उपयोग के लिए घटक विनिर्देश और निष्पादक को पैकेज करता है।

टीएफएक्स कई मानक घटक प्रदान करता है जिनका उपयोग आप अपनी पाइपलाइनों में कर सकते हैं। यदि ये घटक आपकी आवश्यकताओं को पूरा नहीं करते हैं, तो आप कस्टम घटक बना सकते हैं। कस्टम घटकों के बारे में और जानें .

पाइपलाइन

टीएफएक्स पाइपलाइन एमएल वर्कफ़्लो का एक पोर्टेबल कार्यान्वयन है जिसे विभिन्न ऑर्केस्ट्रेटर पर चलाया जा सकता है, जैसे: अपाचे एयरफ्लो, अपाचे बीम और क्यूबफ़्लो पाइपलाइन। एक पाइपलाइन घटक उदाहरणों और इनपुट मापदंडों से बनी होती है।

घटक उदाहरण आउटपुट के रूप में कलाकृतियों का उत्पादन करते हैं और आम तौर पर इनपुट के रूप में अपस्ट्रीम घटक उदाहरणों द्वारा उत्पादित कलाकृतियों पर निर्भर करते हैं। घटक उदाहरणों के लिए निष्पादन अनुक्रम आर्टिफैक्ट निर्भरता का एक निर्देशित एसाइक्लिक ग्राफ बनाकर निर्धारित किया जाता है।

उदाहरण के लिए, एक पाइपलाइन पर विचार करें जो निम्नलिखित कार्य करती है:

  • एक कस्टम घटक का उपयोग करके स्वामित्व प्रणाली से सीधे डेटा अंतर्ग्रहण करता है।
  • स्टैटिस्टिक्सजेन मानक घटक का उपयोग करके प्रशिक्षण डेटा के आंकड़ों की गणना करता है।
  • SchemaGen मानक घटक का उपयोग करके एक डेटा स्कीमा बनाता है।
  • exampleValidator मानक घटक का उपयोग करके विसंगतियों के लिए प्रशिक्षण डेटा की जाँच करता है।
  • ट्रांसफ़ॉर्म मानक घटक का उपयोग करके डेटासेट पर फ़ीचर इंजीनियरिंग निष्पादित करता है।
  • ट्रेनर मानक घटक का उपयोग करके एक मॉडल को प्रशिक्षित करता है।
  • मूल्यांकनकर्ता घटक का उपयोग करके प्रशिक्षित मॉडल का मूल्यांकन करता है।
  • यदि मॉडल अपने मूल्यांकन को पास कर लेता है, तो पाइपलाइन एक कस्टम घटक का उपयोग करके प्रशिक्षित मॉडल को एक मालिकाना परिनियोजन प्रणाली में शामिल कर देती है।

घटक उदाहरणों के लिए निष्पादन अनुक्रम निर्धारित करने के लिए, टीएफएक्स आर्टिफैक्ट निर्भरता का विश्लेषण करता है।

  • डेटा अंतर्ग्रहण घटक में कोई आर्टिफैक्ट निर्भरता नहीं है, इसलिए यह ग्राफ़ में पहला नोड हो सकता है।
  • स्टैटिस्टिक्सजेन डेटा अंतर्ग्रहण द्वारा उत्पादित उदाहरणों पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण के बाद निष्पादित किया जाना चाहिए।
  • स्कीमजेन, स्टैटिस्टिक्सजेन द्वारा बनाए गए आँकड़ों पर निर्भर करता है, इसलिए इसे स्टैटिस्टिक्सजेन के बाद निष्पादित किया जाना चाहिए।
  • उदाहरण सत्यापनकर्ता स्टैटिस्टिक्सजेन द्वारा बनाए गए आंकड़ों और स्कीमजेन द्वारा बनाए गए स्कीमा पर निर्भर करता है, इसलिए इसे स्टैटिस्टिक्सजेन और स्कीमजेन के बाद निष्पादित किया जाना चाहिए।
  • ट्रांसफ़ॉर्म डेटा अंतर्ग्रहण द्वारा निर्मित उदाहरणों और SchemaGen द्वारा बनाई गई स्कीमा पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण और SchemaGen के बाद निष्पादित किया जाना चाहिए।
  • ट्रेनर डेटा अंतर्ग्रहण द्वारा निर्मित उदाहरणों , स्कीमजेन द्वारा बनाई गई स्कीमा और ट्रांसफ़ॉर्म द्वारा निर्मित सहेजे गए मॉडल पर निर्भर करता है। ट्रेनर को डेटा अंतर्ग्रहण, स्कीमजेन और ट्रांसफ़ॉर्म के बाद ही निष्पादित किया जा सकता है।
  • मूल्यांकनकर्ता डेटा अंतर्ग्रहण द्वारा उत्पादित उदाहरणों और ट्रेनर द्वारा उत्पादित सहेजे गए मॉडल पर निर्भर करता है, इसलिए इसे डेटा अंतर्ग्रहण और ट्रेनर के बाद निष्पादित किया जाना चाहिए।
  • कस्टम डिप्लॉयर ट्रेनर द्वारा निर्मित सहेजे गए मॉडल और मूल्यांकनकर्ता द्वारा बनाए गए विश्लेषण परिणामों पर निर्भर करता है, इसलिए डिप्लॉयर को ट्रेनर और मूल्यांकनकर्ता के बाद निष्पादित किया जाना चाहिए।

इस विश्लेषण के आधार पर, एक ऑर्केस्ट्रेटर चलता है:

  • डेटा अंतर्ग्रहण, स्टैटिस्टिक्सजेन, स्कीमजेन घटक क्रमिक रूप से उदाहरण देते हैं।
  • उदाहरण सत्यापनकर्ता और ट्रांसफॉर्म घटक समानांतर में चल सकते हैं क्योंकि वे इनपुट आर्टिफैक्ट निर्भरता साझा करते हैं और एक-दूसरे के आउटपुट पर निर्भर नहीं होते हैं।
  • ट्रांसफ़ॉर्म घटक पूरा होने के बाद, ट्रेनर, मूल्यांकनकर्ता और कस्टम डिप्लॉयर घटक इंस्टेंसेस क्रमिक रूप से चलते हैं।

टीएफएक्स पाइपलाइन बनाने के बारे में और जानें।

टीएफएक्स पाइपलाइन टेम्पलेट

टीएफएक्स पाइपलाइन टेम्प्लेट एक पूर्वनिर्मित पाइपलाइन प्रदान करके पाइपलाइन विकास के साथ शुरुआत करना आसान बनाते हैं जिसे आप अपने उपयोग के मामले में अनुकूलित कर सकते हैं।

TFX पाइपलाइन टेम्पलेट को अनुकूलित करने के बारे में और जानें।

पाइपलाइन चलाएँ

रन एक पाइपलाइन का एकल निष्पादन है।

वाद्यवृंदकार

ऑर्केस्ट्रेटर एक ऐसी प्रणाली है जहां आप पाइपलाइन रन निष्पादित कर सकते हैं। टीएफएक्स ऑर्केस्ट्रेटर्स का समर्थन करता है जैसे: अपाचे एयरफ्लो , अपाचे बीम और क्यूबफ्लो पाइपलाइन । टीएफएक्स एक ऑर्केस्ट्रेटर का समर्थन करने वाले कार्यान्वयन को संदर्भित करने के लिए डैगरनर शब्द का भी उपयोग करता है।