SIG TFX-Addons समुदाय में शामिल हों और TFX को और बेहतर बनाने में मदद करें!

TFX उपयोगकर्ता मार्गदर्शिका

परिचय

TFX एक Google-प्रोडक्शन-स्केल मशीन लर्निंग (ML) प्लेटफॉर्म है जो TensorFlow पर आधारित है। यह आपके मशीन लर्निंग सिस्टम को परिभाषित करने, लॉन्च करने और निगरानी करने के लिए आवश्यक सामान्य घटकों को एकीकृत करने के लिए एक कॉन्फ़िगरेशन ढांचा और साझा पुस्तकालय प्रदान करता है।

टीएफएक्स 1.0

हम की उपलब्धता की घोषणा करते हुए खुश हैं TFX 1.0.0 । यह टीएफएक्स की प्रारंभिक पोस्ट-बीटा रिलीज है, जो स्थिर सार्वजनिक एपीआई और कलाकृतियां प्रदान करता है। आप आश्वासन दिया जा सकता है कि अपने भविष्य के TFX पाइपलाइनों अनुकूलता गुंजाइश इस में परिभाषित के भीतर एक अपग्रेड करने के बाद काम करता रहेगा आरएफसी

इंस्टालेशन

अजगर पीपीपीआई

pip install tfx

रात्रिकालीन पैकेज

TFX भी पर हर रात को संकुल की मेजबानी करता है https://pypi-nightly.tensorflow.org Google मेघ पर। नवीनतम रात्रिकालीन पैकेज स्थापित करने के लिए, कृपया निम्न आदेश का उपयोग करें:

pip install -i https://pypi-nightly.tensorflow.org/simple --pre tfx

यह TFX की प्रमुख निर्भरता जैसे TensorFlow Model Analysis (TFMA), TensorFlow Data Validation (TFDV), TensorFlow Transform (TFT), TFX बेसिक शेयर्ड लाइब्रेरी (TFX-BSL), ML मेटाडेटा (MLMD) के लिए रात्रिकालीन पैकेज स्थापित करेगा।

टीएफएक्स के बारे में

TFX उत्पादन परिवेश में ML वर्कफ़्लोज़ के निर्माण और प्रबंधन के लिए एक प्लेटफ़ॉर्म है। टीएफएक्स निम्नलिखित प्रदान करता है:

  • एमएल पाइपलाइनों के निर्माण के लिए एक टूलकिट। TFX पाइपलाइन आपको अपने ML वर्कफ़्लो को कई प्लेटफ़ॉर्म पर व्यवस्थित करने देती है, जैसे: Apache Airflow, Apache Beam, और Kubeflow Pipelines।

    TFX पाइपलाइनों बारे में और जानें

  • मानक घटकों का एक सेट जिसे आप पाइपलाइन के एक भाग के रूप में या अपनी एमएल प्रशिक्षण स्क्रिप्ट के एक भाग के रूप में उपयोग कर सकते हैं। टीएफएक्स मानक घटक आसानी से एमएल प्रक्रिया का निर्माण शुरू करने में आपकी सहायता के लिए सिद्ध कार्यक्षमता प्रदान करते हैं।

    TFX मानक घटकों बारे में और जानें

  • पुस्तकालय जो कई मानक घटकों के लिए आधार कार्यक्षमता प्रदान करते हैं। आप इस कार्यक्षमता को अपने स्वयं के कस्टम घटकों में जोड़ने के लिए TFX पुस्तकालयों का उपयोग कर सकते हैं, या उन्हें अलग से उपयोग कर सकते हैं।

    TFX पुस्तकालयों बारे में और जानें

TFX, TensorFlow पर आधारित एक Google-उत्पादन-स्केल मशीन लर्निंग टूलकिट है। यह आपके मशीन लर्निंग सिस्टम को परिभाषित करने, लॉन्च करने और निगरानी करने के लिए आवश्यक सामान्य घटकों को एकीकृत करने के लिए एक कॉन्फ़िगरेशन ढांचा और साझा पुस्तकालय प्रदान करता है।

TFX मानक घटक

एक TFX पाइपलाइन घटक है कि एक को लागू का क्रम है एमएल पाइपलाइन जो विशेष रूप से स्केलेबल, उच्च प्रदर्शन मशीन कार्य सीखने के लिए बनाया गया है। इसमें मॉडलिंग, प्रशिक्षण, अनुमान प्रस्तुत करना और ऑनलाइन, नेटिव मोबाइल और जावास्क्रिप्ट लक्ष्यों के लिए तैनाती का प्रबंधन शामिल है।

एक TFX पाइपलाइन में आमतौर पर निम्नलिखित घटक शामिल होते हैं:

  • ExampleGen एक पाइप लाइन है कि ingests और वैकल्पिक रूप से इनपुट डाटासेट विभाजन की प्रारंभिक इनपुट घटक है।

  • StatisticsGen डाटासेट के लिए आँकड़े गणना करता है।

  • SchemaGen आंकड़ों की जांच करता है और एक डेटा स्कीमा पैदा करता है।

  • ExampleValidator विसंगतियों और डेटासेट में लापता मूल्यों के लिए लग रहा है।

  • रूपांतरण डेटासेट पर प्रदर्शन सुविधा इंजीनियरिंग।

  • ट्रेनर मॉडल प्रशिक्षण देता है।

  • ट्यूनर मॉडल की hyperparameters धुनों।

  • मूल्यांकनकर्ता प्रदर्शन प्रशिक्षण परिणाम के गहरे विश्लेषण और आप अपने निर्यात मॉडल को मान्य, सुनिश्चित करना है कि वे "अच्छा पर्याप्त" कर रहे हैं उत्पादन के लिए धक्का दिया जा करने के लिए मदद करता है।

  • InfraValidator धक्का दिया जा रहा से चेकों मॉडल वास्तव में बुनियादी सुविधाओं से servable है, और रोकता बुरा मॉडल।

  • पुशर एक सेवारत बुनियादी ढांचे पर मॉडल तैनात।

  • BulkInferrer लेबल नहीं किया गया अनुमान अनुरोध के साथ एक मॉडल पर प्रदर्शन बैच प्रोसेसिंग।

यह आरेख इन घटकों के बीच डेटा के प्रवाह को दिखाता है:

घटक प्रवाह

टीएफएक्स पुस्तकालय

टीएफएक्स में पुस्तकालय और पाइपलाइन घटक दोनों शामिल हैं। यह आरेख TFX पुस्तकालयों और पाइपलाइन घटकों के बीच संबंधों को दिखाता है:

पुस्तकालय और घटक

टीएफएक्स कई पायथन पैकेज प्रदान करता है जो कि पुस्तकालय हैं जिनका उपयोग पाइपलाइन घटकों को बनाने के लिए किया जाता है। आप इन पुस्तकालयों का उपयोग अपनी पाइपलाइनों के घटकों को बनाने के लिए करेंगे ताकि आपका कोड आपकी पाइपलाइन के अनूठे पहलुओं पर ध्यान केंद्रित कर सके।

टीएफएक्स पुस्तकालयों में शामिल हैं:

  • TensorFlow डेटा मान्यता (TFDV) विश्लेषण और मान्य मशीन सीखने डेटा के लिए एक पुस्तकालय है। इसे अत्यधिक स्केलेबल होने और TensorFlow और TFX के साथ अच्छी तरह से काम करने के लिए डिज़ाइन किया गया है। टीएफडीवी में शामिल हैं:

    • प्रशिक्षण और परीक्षण डेटा के सारांश आँकड़ों की मापनीय गणना।
    • डेटा वितरण और आंकड़ों के लिए एक दर्शक के साथ एकीकरण, साथ ही डेटासेट (पहलू) के जोड़े की पहलू तुलना।

    • आवश्यक मूल्यों, श्रेणियों और शब्दावली जैसे डेटा के बारे में अपेक्षाओं का वर्णन करने के लिए स्वचालित डेटा-स्कीमा पीढ़ी।

    • स्कीमा का निरीक्षण करने में आपकी सहायता करने के लिए एक स्कीमा व्यूअर।

    • विसंगतियों की पहचान करने के लिए विसंगति का पता लगाना, जैसे कि गायब सुविधाएँ, सीमा से बाहर मान, या गलत विशेषता प्रकार, कुछ नाम रखने के लिए।

    • एक विसंगति दर्शक ताकि आप देख सकें कि किन विशेषताओं में विसंगतियाँ हैं और उन्हें ठीक करने के लिए और जानें।

  • TensorFlow रूपांतरण (टीएफटी) TensorFlow साथ डेटा preprocessing के लिए एक पुस्तकालय है। TensorFlow Transform डेटा के लिए उपयोगी है जिसके लिए पूर्ण-पास की आवश्यकता होती है, जैसे:

    • माध्य और मानक विचलन द्वारा इनपुट मान को सामान्य करें।
    • सभी इनपुट मानों पर एक शब्दावली उत्पन्न करके स्ट्रिंग्स को पूर्णांक में बदलें।
    • देखे गए डेटा वितरण के आधार पर उन्हें बकेट में असाइन करके फ़्लोट्स को पूर्णांक में बदलें।
  • TensorFlow TFX के साथ मॉडल के प्रशिक्षण के लिए प्रयोग किया जाता है। यह प्रशिक्षण डेटा और मॉडलिंग कोड को सम्मिलित करता है और एक सहेजे गए मॉडल परिणाम बनाता है। यह इनपुट डेटा को प्रीप्रोसेस करने के लिए TensorFlow Transform द्वारा बनाई गई एक फीचर इंजीनियरिंग पाइपलाइन को भी एकीकृत करता है।

    KerasTuner मॉडल के लिए ट्यूनिंग hyperparameters के लिए प्रयोग किया जाता है।

  • TensorFlow मॉडल विश्लेषण (TFMA) TensorFlow मॉडल के मूल्यांकन के लिए एक पुस्तकालय है। इसका उपयोग TensorFlow के साथ EvalSavedModel बनाने के लिए किया जाता है, जो इसके विश्लेषण का आधार बन जाता है। यह उपयोगकर्ताओं को अपने ट्रेनर में परिभाषित समान मीट्रिक का उपयोग करके वितरित तरीके से बड़ी मात्रा में डेटा पर अपने मॉडल का मूल्यांकन करने की अनुमति देता है। इन मेट्रिक्स की गणना डेटा के विभिन्न स्लाइस पर की जा सकती है और जुपिटर नोटबुक में देखे जा सकते हैं।

  • TensorFlow मेटाडाटा (TFMD) मेटाडाटा कि उपयोगी होते हैं जब प्रशिक्षण मशीन TensorFlow साथ सीखने मॉडल के लिए मानक अभ्यावेदन प्रदान करता है। इनपुट डेटा विश्लेषण के दौरान मेटाडेटा हाथ से या स्वचालित रूप से तैयार किया जा सकता है, और डेटा सत्यापन, अन्वेषण और परिवर्तन के लिए उपयोग किया जा सकता है। मेटाडेटा क्रमांकन प्रारूपों में शामिल हैं:

    • सारणीबद्ध डेटा का वर्णन करने वाला एक स्कीमा (उदाहरण के लिए, tf.उदाहरण)।
    • ऐसे डेटासेट पर सारांश आँकड़ों का संग्रह।
  • एमएल मेटाडाटा (MLMD) रिकॉर्डिंग और एमएल डेवलपर और डेटा वैज्ञानिक कार्य प्रवाह के साथ जुड़ा मेटाडेटा पुन: प्राप्त करने के लिए एक पुस्तकालय है। अक्सर मेटाडेटा TFMD अभ्यावेदन का उपयोग करता है। MLMD का उपयोग कर हठ का प्रबंधन करता है एसक्यूएल-लाइट , MySQL , और अन्य समान डेटा स्टोर।

सहायक प्रौद्योगिकियां

आवश्यक

  • अपाचे बीम एक खुला स्रोत, दोनों बैच को परिभाषित करने और डेटा-समानांतर प्रसंस्करण पाइपलाइनों स्ट्रीमिंग के लिए एकीकृत मॉडल है। TFX डेटा-समानांतर पाइपलाइनों को लागू करने के लिए Apache Beam का उपयोग करता है। पाइप लाइन तो बीम के समर्थित वितरित प्रसंस्करण बैक समाप्त हो जाती है, जो अपाचे Flink, अपाचे स्पार्क, शामिल हैं में से एक ने मार डाला जाता है Google मेघ Dataflow , व अन्य।

ऐच्छिक

Apache Airflow और Kubeflow जैसे ऑर्केस्ट्रेटर ML पाइपलाइन को कॉन्फ़िगर करना, संचालन करना, निगरानी करना और बनाए रखना आसान बनाते हैं।

  • अपाचे वायु प्रवाह प्रोग्राम के रूप में लेखक, अनुसूची और मॉनिटर workflows करने के लिए एक मंच है। TFX कार्यों के निर्देशित एसाइक्लिक ग्राफ़ (DAG) के रूप में लेखक वर्कफ़्लोज़ के लिए Airflow का उपयोग करता है। एयरफ्लो शेड्यूलर निर्दिष्ट निर्भरताओं का पालन करते हुए श्रमिकों की एक सरणी पर कार्यों को निष्पादित करता है। रिच कमांड लाइन यूटिलिटीज डीएजी पर जटिल सर्जरी को एक स्नैप बना देती हैं। समृद्ध यूजर इंटरफेस उत्पादन में चल रही पाइपलाइनों की कल्पना करना, प्रगति की निगरानी करना और जरूरत पड़ने पर समस्याओं का निवारण करना आसान बनाता है। जब वर्कफ़्लो को कोड के रूप में परिभाषित किया जाता है, तो वे अधिक रखरखाव योग्य, संस्करण योग्य, परीक्षण योग्य और सहयोगी बन जाते हैं।

  • Kubeflow मशीन सीखने की तैनाती बनाने के लिए समर्पित है (एमएल) Kubernetes सरल, पोर्टेबल और स्केलेबल पर कार्यप्रवाह। Kubeflow का लक्ष्य अन्य सेवाओं को फिर से बनाना नहीं है, बल्कि विभिन्न बुनियादी ढांचे के लिए ML के लिए सर्वश्रेष्ठ नस्ल के ओपन-सोर्स सिस्टम को तैनात करने का एक सीधा तरीका प्रदान करना है। Kubeflow पाइपलाइन संरचना और Kubeflow पर प्रतिलिपि प्रस्तुत करने योग्य कार्य प्रवाह, प्रयोग और नोटबुक आधारित अनुभवों के साथ एकीकृत के निष्पादन के लिए सक्षम है। Kubernetes पर Kubeflow पाइपलाइन सेवाओं में होस्ट किए गए मेटाडेटा स्टोर, कंटेनर आधारित ऑर्केस्ट्रेशन इंजन, नोटबुक सर्वर और UI शामिल हैं जो उपयोगकर्ताओं को बड़े पैमाने पर जटिल ML पाइपलाइनों को विकसित करने, चलाने और प्रबंधित करने में मदद करते हैं। क्यूबफ्लो पाइपलाइन एसडीके प्रोग्रामेटिक रूप से पाइपलाइनों के घटकों और संरचना के निर्माण और साझा करने की अनुमति देता है।

पोर्टेबिलिटी और इंटरऑपरेबिलिटी

TFX कई वातावरण और सहित आर्केस्ट्रा चौखटे, करने के लिए पोर्टेबल होने के लिए बनाया गया है अपाचे वायु प्रवाह , अपाचे बीम और Kubeflow । यह भी ऑन-प्रिमाइसेस सहित विभिन्न कंप्यूटिंग प्लेटफार्मों, और क्लाउड प्लेटफॉर्म जैसे करने के लिए पोर्टेबल है Google मेघ प्लेटफ़ॉर्म (GCP) । विशेष रूप से, इस तरह के रूप में serveral कामयाब जीसीपी सेवाओं के साथ TFX interoperates बादल ऐ प्लेटफार्म के लिए प्रशिक्षण और पूर्वानुमान , और बादल Dataflow वितरित डेटा के लिए एमएल जीवन चक्र के कई अन्य पहलुओं के लिए प्रसंस्करण।

मॉडल बनाम सहेजा गया मॉडल

नमूना

एक मॉडल प्रशिक्षण प्रक्रिया का आउटपुट है। यह वजन का क्रमबद्ध रिकॉर्ड है जिसे प्रशिक्षण प्रक्रिया के दौरान सीखा गया है। इन भारों का उपयोग बाद में नए इनपुट उदाहरणों के लिए भविष्यवाणियों की गणना करने के लिए किया जा सकता है। TFX और TensorFlow के लिए, 'मॉडल' उन चौकियों को संदर्भित करता है जिनमें उस बिंदु तक सीखे गए वज़न होते हैं।

ध्यान दें कि 'मॉडल' TensorFlow गणना ग्राफ (यानी एक पायथन फ़ाइल) की परिभाषा को भी संदर्भित कर सकता है जो व्यक्त करता है कि भविष्यवाणी की गणना कैसे की जाएगी। संदर्भ के आधार पर दो इंद्रियों का परस्पर उपयोग किया जा सकता है।

सहेजा गया मॉडल

  • क्या एक है SavedModel एक सार्वभौमिक, भाषा-तटस्थ, भली भांति बंद, वसूली एक TensorFlow मॉडल की क्रमबद्धता:।
  • यह महत्वपूर्ण क्यों है: यह उत्पादन करने के लिए उच्च स्तर की प्रणाली में सक्षम बनाता है, को बदलने, और एक एकल अमूर्त का उपयोग कर TensorFlow मॉडल खपत करते हैं।

SavedModel उत्पादन में एक TensorFlow मॉडल की सेवा के लिए, या एक देशी मोबाइल या जावास्क्रिप्ट एप्लिकेशन के लिए एक प्रशिक्षित मॉडल को निर्यात करने के लिए अनुशंसित क्रमांकन प्रारूप है। उदाहरण के लिए, भविष्यवाणी करने के लिए एक मॉडल को एक आरईएसटी सेवा में बदलने के लिए, आप मॉडल को एक सहेजे गए मॉडल के रूप में क्रमबद्ध कर सकते हैं और इसे टेन्सरफ्लो सर्विंग का उपयोग करके सेवा दे सकते हैं। देखें एक TensorFlow मॉडल की सेवा में अधिक जानकारी के लिए।

योजना

कुछ TFX घटकों अपने इनपुट डेटा एक स्कीमा कहा जाता है का एक विवरण का उपयोग करें। स्कीमा का एक उदाहरण है schema.proto । स्कीमा का एक प्रकार है प्रोटोकॉल बफ़र , अधिक आम तौर पर एक "Protobuf" के रूप में जाना जाता है। स्कीमा सुविधा मानों के लिए डेटा प्रकार निर्दिष्ट कर सकती है, चाहे किसी विशेषता को सभी उदाहरणों में मौजूद होना चाहिए, मान सीमा और अन्य गुणों की अनुमति है। TensorFlow डेटा सत्यापन (TFDV) का उपयोग करने के लाभों में से एक यह है कि यह स्वचालित रूप से प्रशिक्षण डेटा से प्रकार, श्रेणियों और श्रेणियों का हवाला देकर एक स्कीमा उत्पन्न करेगा।

यहाँ एक स्कीमा प्रोटोबफ से एक अंश दिया गया है:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

निम्नलिखित घटक स्कीमा का उपयोग करते हैं:

  • TensorFlow डेटा सत्यापन
  • टेंसरफ्लो ट्रांसफॉर्म

एक विशिष्ट TFX पाइपलाइन में TensorFlow डेटा सत्यापन एक स्कीमा उत्पन्न करता है, जिसे अन्य घटकों द्वारा उपभोग किया जाता है।

TFX के साथ विकास करना

TFX परिनियोजन के माध्यम से, आपके स्थानीय मशीन पर अनुसंधान, प्रयोग और विकास से लेकर मशीन लर्निंग प्रोजेक्ट के हर चरण के लिए एक शक्तिशाली मंच प्रदान करता है। से बचने के कोड दोहराव के लिए आदेश और के लिए क्षमता को खत्म करने में प्रशिक्षण तिरछा सेवारत / यह दृढ़ता से दोनों मॉडल प्रशिक्षण और प्रशिक्षित मॉडलों की तैनाती के लिए अपने TFX पाइपलाइन लागू करने के लिए, और उपयोग की सिफारिश की है रूपांतरण घटकों जो लाभ उठाने TensorFlow रूपांतरण दोनों प्रशिक्षण और अनुमान के लिए पुस्तकालय। ऐसा करने से आप समान प्रीप्रोसेसिंग और विश्लेषण कोड का लगातार उपयोग करेंगे, और प्रशिक्षण के लिए उपयोग किए गए डेटा और उत्पादन में आपके प्रशिक्षित मॉडल को खिलाए गए डेटा के बीच अंतर से बचने के साथ-साथ उस कोड को एक बार लिखने से लाभ होगा।

डेटा एक्सप्लोरेशन, विज़ुअलाइज़ेशन और क्लीनिंग

डेटा एक्सप्लोरेशन, विज़ुअलाइज़ेशन और क्लीनिंग

TFX पाइपलाइनों आम तौर पर एक साथ शुरू ExampleGen घटक है, जो यह tf.Examples के रूप में इनपुट डेटा और प्रारूपों स्वीकार करता है। डेटा को प्रशिक्षण और मूल्यांकन डेटासेट में विभाजित करने के बाद अक्सर ऐसा किया जाता है ताकि वास्तव में उदाहरणजेन घटकों की दो प्रतियां हों, प्रत्येक प्रशिक्षण और मूल्यांकन के लिए। आमतौर पर यह कोई द्वारा पीछा किया जाता StatisticsGen घटक और एक SchemaGen घटक है, जो अपने डेटा की जांच करने और एक डेटा स्कीमा और सांख्यिकी का अनुमान लगा होगा। स्कीमा और आँकड़े एक से भस्म हो जाएगा ExampleValidator घटक है, जो विसंगतियों, लापता मूल्यों, और अपने डेटा में गलत डेटा प्रकार के लिए दिखेगा। इन घटकों के सभी की क्षमताओं का लाभ उठाने TensorFlow डेटा मान्यता पुस्तकालय।

TensorFlow डेटा मान्यता (TFDV) जब प्रारंभिक अन्वेषण, दृश्य कर रही है, और अपने डेटासेट के सफाई एक महत्वपूर्ण उपकरण है। TFDV आपके डेटा की जांच करता है और डेटा प्रकारों, श्रेणियों और श्रेणियों का अनुमान लगाता है, और फिर स्वचालित रूप से विसंगतियों और लापता मूल्यों की पहचान करने में मदद करता है। यह विज़ुअलाइज़ेशन टूल भी प्रदान करता है जो आपके डेटासेट की जांच करने और उसे समझने में आपकी सहायता कर सकता है। अपने पाइप लाइन पूर्ण होने के बाद आप से मेटाडाटा पढ़ सकते हैं MLMD और एक Jupyter नोटबुक में TFDV के दृश्य उपकरणों का उपयोग अपने डेटा का विश्लेषण करने के लिए।

आपके प्रारंभिक मॉडल प्रशिक्षण और परिनियोजन के बाद, TFDV का उपयोग आपके परिनियोजित मॉडल के अनुमान अनुरोधों से नए डेटा की निगरानी के लिए किया जा सकता है, और विसंगतियों और/या बहाव की तलाश कर सकता है। यह समय-श्रृंखला डेटा के लिए विशेष रूप से उपयोगी है जो प्रवृत्ति या मौसमी के परिणामस्वरूप समय के साथ बदलता है, और यह सूचित करने में मदद कर सकता है कि कब डेटा समस्याएं हैं या जब मॉडल को नए डेटा पर फिर से प्रशिक्षित करने की आवश्यकता होती है।

डेटा विज़ुअलाइज़ेशन

जब आप अपनी पाइपलाइन के उस अनुभाग के माध्यम से अपना डेटा का पहला रन पूरा कर लेते हैं जो TFDV (आमतौर पर स्टैटिस्टिक्सजेन, स्कीमाजेन, और उदाहरण वैलिडेटर) का उपयोग करता है, तो आप एक ज्यूपिटर शैली नोटबुक में परिणामों की कल्पना कर सकते हैं। अतिरिक्त रन के लिए आप समायोजन करते समय इन परिणामों की तुलना कर सकते हैं, जब तक कि आपका डेटा आपके मॉडल और एप्लिकेशन के लिए इष्टतम न हो जाए।

आप पहली बार क्वेरी करेगा एमएल मेटाडाटा (MLMD) इन घटकों के इन फांसी के परिणामों का पता लगाने की है, और फिर TFDV में दृश्य समर्थन एपीआई का उपयोग अपनी नोटबुक में दृश्यावलोकन बनाने के लिए। इसमें शामिल हैं tfdv.load_statistics () और tfdv.visualize_statistics () इस दृश्य का उपयोग करके आप बेहतर आपके डेटासेट की विशेषताओं को समझ सकते हैं, और यदि आवश्यक को आवश्यकतानुसार बदलें।

विकास और प्रशिक्षण मॉडल

फ़ीचर इंजीनियरिंग

एक ठेठ TFX पाइपलाइन एक शामिल होंगे रूपांतरण घटक है, जो की क्षमताओं का लाभ उठाकर सुविधा इंजीनियरिंग प्रदर्शन करेंगे TensorFlow रूपांतरण (टीएफटी) पुस्तकालय। एक घटक खपत एक SchemaGen घटक द्वारा बनाई स्कीमा रूपांतरण, और लागू होता है डेटा परिवर्तनों , बनाने के गठबंधन करने के लिए, और विशेषताएं है कि अपने मॉडल को प्रशिक्षित करने के लिए इस्तेमाल किया जाएगा बदलना। लापता मूल्यों की सफाई और प्रकारों का रूपांतरण भी ट्रांसफ़ॉर्म घटक में किया जाना चाहिए यदि कभी संभावना हो कि ये भी अनुमान अनुरोधों के लिए भेजे गए डेटा में मौजूद होंगे। कुछ महत्वपूर्ण विचार कर रहे हैं जब TFX में प्रशिक्षण के लिए TensorFlow कोड डिजाइनिंग।

मॉडलिंग और प्रशिक्षण

एक घटक रूपांतरण का परिणाम एक SavedModel जो आयात किया जाएगा और TensorFlow में अपने मॉडलिंग कोड में इस्तेमाल किया, एक के दौरान होता है ट्रेनर घटक। इस सहेजे गए मॉडल में सभी डेटा इंजीनियरिंग परिवर्तन शामिल हैं जो ट्रांसफ़ॉर्म घटक में बनाए गए थे, ताकि प्रशिक्षण और अनुमान दोनों के दौरान समान कोड का उपयोग करके समान परिवर्तन किए जा सकें। रूपांतरण घटक से सहेजे गए मॉडल सहित मॉडलिंग कोड का उपयोग करके, आप अपने प्रशिक्षण और मूल्यांकन डेटा का उपभोग कर सकते हैं और अपने मॉडल को प्रशिक्षित कर सकते हैं।

अनुमानक आधारित मॉडल के साथ काम करते समय, आपके मॉडलिंग कोड के अंतिम भाग को आपके मॉडल को एक सहेजे गए मॉडल और एक इवलसेव्ड मॉडल दोनों के रूप में सहेजना चाहिए। EvalSavedModel के रूप में सहेजना यह सुनिश्चित करता है कि प्रशिक्षण के समय उपयोग किए गए मेट्रिक्स मूल्यांकन के दौरान भी उपलब्ध हों (ध्यान दें कि यह केरस आधारित मॉडल के लिए आवश्यक नहीं है)। एक EvalSavedModel सहेजा जा रहा है की आवश्यकता है कि आप आयात TensorFlow मॉडल विश्लेषण (TFMA) अपने ट्रेनर घटक में पुस्तकालय।

import tensorflow_model_analysis as tfma
...

tfma.export.export_eval_savedmodel(
        estimator=estimator,
        export_dir_base=eval_model_dir,
        eval_input_receiver_fn=receiver_fn)

एक वैकल्पिक ट्यूनर घटक ट्रेनर से पहले मॉडल के लिए धुन hyperparameters (जैसे, परतों की संख्या) में जोड़ा जा सकता। दिए गए मॉडल और हाइपरपैरामीटर के खोज स्थान के साथ, ट्यूनिंग एल्गोरिदम को उद्देश्य के आधार पर सर्वोत्तम हाइपरपैरामीटर मिलेंगे।

मॉडल प्रदर्शन का विश्लेषण और समझना

मॉडल विश्लेषण

प्रारंभिक मॉडल विकास और प्रशिक्षण के बाद अपने मॉडल के प्रदर्शन का विश्लेषण करना और वास्तव में समझना महत्वपूर्ण है। एक ठेठ TFX पाइपलाइन एक शामिल होंगे मूल्यांकनकर्ता घटक है, जो की क्षमताओं का लाभ उठाता है TensorFlow मॉडल विश्लेषण (TFMA) पुस्तकालय है, जो विकास के इस चरण के लिए एक शक्ति टूलसेट प्रदान करता है। एक मूल्यांकनकर्ता घटक मॉडल की खपत है कि आप इसके बाद के संस्करण का निर्यात किया है, और आप की एक सूची निर्दिष्ट करने देती tfma.SlicingSpec आप जब visualizing और अपने मॉडल के प्रदर्शन का विश्लेषण करने का उपयोग कर सकते हैं। प्रत्येक SlicingSpec इस तरह के स्पष्ट सुविधाओं या सांख्यिक सुविधाओं के लिए विशेष श्रेणियों के लिए विशेष श्रेणियों के रूप में अपने प्रशिक्षण डेटा है कि आप जांच करना चाहते हैं, का एक टुकड़ा परिभाषित करता है।

उदाहरण के लिए, यह आपके ग्राहकों के विभिन्न वर्गों के लिए आपके मॉडल के प्रदर्शन को समझने की कोशिश करने के लिए महत्वपूर्ण होगा, जिसे वार्षिक खरीदारी, भौगोलिक डेटा, आयु समूह या लिंग के आधार पर विभाजित किया जा सकता है। यह लंबी पूंछ वाले डेटासेट के लिए विशेष रूप से महत्वपूर्ण हो सकता है, जहां एक प्रमुख समूह का प्रदर्शन महत्वपूर्ण, फिर भी छोटे समूहों के लिए अस्वीकार्य प्रदर्शन को छुपा सकता है। उदाहरण के लिए, आपका मॉडल औसत कर्मचारियों के लिए अच्छा प्रदर्शन कर सकता है लेकिन कार्यकारी कर्मचारियों के लिए बुरी तरह विफल हो सकता है, और यह जानना आपके लिए महत्वपूर्ण हो सकता है।

मॉडल विश्लेषण और विज़ुअलाइज़ेशन

आप अपने मॉडल को प्रशिक्षण और चल रहे हैं के माध्यम से अपने डेटा के पहले रन पूरा कर लिया है के बाद मूल्यांकनकर्ता घटक (जो लाभ उठाता है TFMA प्रशिक्षण परिणामों पर), आप एक Jupyter शैली नोटबुक में परिणाम कल्पना कर सकते हैं। अतिरिक्त रन के लिए आप समायोजन करते समय इन परिणामों की तुलना कर सकते हैं, जब तक कि आपके परिणाम आपके मॉडल और एप्लिकेशन के लिए इष्टतम न हों।

आप पहली बार क्वेरी करेगा एमएल मेटाडाटा (MLMD) इन घटकों के इन फांसी के परिणामों का पता लगाने की है, और फिर TFMA में दृश्य समर्थन एपीआई का उपयोग अपनी नोटबुक में दृश्यावलोकन बनाने के लिए। इसमें शामिल हैं tfma.load_eval_results और tfma.view.render_slicing_metrics इस दृश्य का उपयोग करके आप बेहतर अपने मॉडल की विशेषताओं को समझ सकते हैं, और यदि आवश्यक संशोधित रूप में की आवश्यकता है।

मॉडल प्रदर्शन मान्य करना

किसी मॉडल के प्रदर्शन का विश्लेषण करने के हिस्से के रूप में आप आधार रेखा (जैसे वर्तमान में प्रस्तुत मॉडल) के खिलाफ प्रदर्शन को सत्यापित करना चाह सकते हैं। मॉडल सत्यापन करने के लिए दोनों एक उम्मीदवार और आधारभूत मॉडल गुजर द्वारा किया जाता है मूल्यांकनकर्ता घटक। मूल्यांकनकर्ता उम्मीदवार और आधार रेखा दोनों के साथ-साथ भिन्न मेट्रिक्स के संगत सेट के साथ मेट्रिक्स (जैसे एयूसी, हानि) की गणना करता है। तब थ्रेसहोल्ड लागू किए जा सकते हैं और आपके मॉडल को उत्पादन में धकेलने के लिए उपयोग किए जा सकते हैं।

यह मान्य करना कि एक मॉडल की सेवा की जा सकती है

इन्फ्रा सत्यापन

प्रशिक्षित मॉडल को तैनात करने से पहले, आप यह सत्यापित करना चाह सकते हैं कि क्या मॉडल वास्तव में सेवारत बुनियादी ढांचे में सेवा योग्य है। यह उत्पादन वातावरण में विशेष रूप से महत्वपूर्ण है ताकि यह सुनिश्चित किया जा सके कि नया प्रकाशित मॉडल सिस्टम को भविष्यवाणियों की सेवा करने से नहीं रोकता है। InfraValidator घटक एक सैंडबॉक्स वातावरण में अपने मॉडल की एक कनारी तैनाती कर, और वैकल्पिक कि अपने मॉडल ठीक से काम करता जाँच करने के लिए वास्तविक अनुरोध भेज देंगे।

परिनियोजन लक्ष्य

एक बार जब आप एक मॉडल विकसित और प्रशिक्षित कर लेते हैं जिससे आप खुश होते हैं, तो अब इसे एक या अधिक परिनियोजन लक्ष्य (लक्ष्यों) पर तैनात करने का समय है जहां इसे अनुमान अनुरोध प्राप्त होंगे। TFX परिनियोजन लक्ष्यों के तीन वर्गों में परिनियोजन का समर्थन करता है। सहेजे गए मॉडल के रूप में निर्यात किए गए प्रशिक्षित मॉडल को इनमें से किसी एक या सभी परिनियोजन लक्ष्यों पर तैनात किया जा सकता है।

घटक प्रवाह

अनुमान: टेंसरफ्लो सर्विंग Ser

TensorFlow सेवित (TFS) एक लचीला, उच्च प्रदर्शन मशीन मॉडल सीखने, उत्पादन परिवेश के लिए तैयार के लिए प्रणाली की सेवा है। यह एक सहेजे गए मॉडल का उपभोग करता है और आरईएसटी या जीआरपीसी इंटरफेस पर अनुमान अनुरोध स्वीकार करेगा। यह एक या अधिक नेटवर्क सर्वरों पर प्रक्रियाओं के एक सेट के रूप में चलता है, सिंक्रनाइज़ेशन और वितरित गणना को संभालने के लिए कई उन्नत आर्किटेक्चर में से एक का उपयोग करता है। देखें TFS प्रलेखन के विकास और TFS समाधान की तैनाती के बारे में अधिक जानकारी के लिए।

एक ठेठ पाइप लाइन में, एक SavedModel जो एक में प्रशिक्षित किया गया ट्रेनर घटक पहले एक में बुनियादी मान्य किया जाएगा InfraValidator घटक। InfraValidator ने वास्तव में SavedModel की सेवा के लिए एक कैनरी TFS मॉडल सर्वर लॉन्च किया। सत्यापन बीत चुका है, एक पुशर घटक अंत में अपने TFS बुनियादी सुविधाओं के लिए SavedModel को तैनात करेगा। इसमें कई संस्करणों और मॉडल अपडेट को संभालना शामिल है।

नेटिव मोबाइल और IoT अनुप्रयोगों में अनुमान: TensorFlow Lite

TensorFlow लाइट उपकरण जो मूल के मोबाइल और IOT अनुप्रयोगों में उनके प्रशिक्षित TensorFlow मॉडल का उपयोग मदद डेवलपर्स के लिए समर्पित है का एक सूट है। यह TensorFlow सर्विंग के समान सहेजे गए मॉडल का उपभोग करता है, और मोबाइल और IoT उपकरणों पर चलने की चुनौतियों के लिए परिणामी मॉडल के आकार और प्रदर्शन को अनुकूलित करने के लिए परिमाणीकरण और छंटाई जैसे अनुकूलन लागू करता है। TensorFlow Lite का उपयोग करने के बारे में अधिक जानकारी के लिए TensorFlow Lite दस्तावेज़ देखें।

जावास्क्रिप्ट में अनुमान: TensorFlow JS

TensorFlow जे एस ब्राउज़र में और Node.js. पर प्रशिक्षण और एमएल मॉडल की तैनाती के लिए एक जावास्क्रिप्ट पुस्तकालय है यह TensorFlow Serving और TensorFlow Lite के समान सहेजे गए मॉडल का उपभोग करता है, और उन्हें TensorFlow.js वेब प्रारूप में परिवर्तित करता है। TensorFlow JS का उपयोग करने के बारे में अधिक जानकारी के लिए TensorFlow JS दस्तावेज़ देखें।

एयरफ्लो के साथ एक TFX पाइपलाइन बनाना

चेक वायु प्रवाह कार्यशाला जानकारी के लिए

Kubeflow के साथ TFX पाइपलाइन बनाना

सेट अप

Kubeflow को पाइपलाइनों को बड़े पैमाने पर चलाने के लिए Kubernetes क्लस्टर की आवश्यकता होती है। के लिए विकल्पों के माध्यम से Kubeflow तैनाती दिशानिर्देश कि मार्गदर्शिका देखें Kubeflow क्लस्टर की तैनाती।

TFX पाइपलाइन को कॉन्फ़िगर और चलाएं run

का पालन करें पर बादल ऐ मंच पाइपलाइन ट्यूटोरियल TFX Kubeflow पर TFX उदाहरण पाइप लाइन को चलाने के लिए। टीएफएक्स घटकों को क्यूबफ्लो पाइपलाइन की रचना के लिए कंटेनरीकृत किया गया है और नमूना बड़े सार्वजनिक डेटासेट को पढ़ने और क्लाउड में बड़े पैमाने पर प्रशिक्षण और डेटा प्रोसेसिंग चरणों को निष्पादित करने के लिए पाइपलाइन को कॉन्फ़िगर करने की क्षमता को दर्शाता है।

पाइपलाइन क्रियाओं के लिए कमांड लाइन इंटरफ़ेस

टीएफएक्स एक एकीकृत सीएलआई प्रदान करता है जो अपाचे एयरफ्लो, अपाचे बीम और क्यूबफ्लो सहित विभिन्न ऑर्केस्ट्रेटर पर पाइपलाइन बनाने, अपडेट करने, चलाने, सूची बनाने और हटाने जैसी पाइपलाइन क्रियाओं की पूरी श्रृंखला करने में मदद करता है। जानकारी के लिए, का पालन करें इन निर्देशों का