SIG TFX-Addons समुदाय में शामिल हों और TFX को और बेहतर बनाने में मदद करें! SIG TFX-Addons में शामिल हों

स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक

स्टैटिस्टिक्सजेन टीएफएक्स पाइपलाइन घटक प्रशिक्षण और सेवा डेटा दोनों पर फीचर आंकड़े उत्पन्न करता है, जिसका उपयोग अन्य पाइपलाइन घटकों द्वारा किया जा सकता है। स्टैटिस्टिक्सजेन बड़े डेटासेट को स्केल करने के लिए बीम का उपयोग करता है।

  • उपभोग करता है: एक exampleGen पाइपलाइन घटक द्वारा बनाए गए डेटासेट।
  • उत्सर्जन: डेटासेट आँकड़े।

सांख्यिकीजेन और TensorFlow डेटा सत्यापन

स्टैटिस्टिक्सजेन आपके डेटासेट से आंकड़े उत्पन्न करने के लिए TensorFlow डेटा सत्यापन का व्यापक उपयोग करता है।

StatsGen घटक का उपयोग करना

एक स्टैटिस्टिक्सजेन पाइपलाइन घटक आमतौर पर तैनात करना बहुत आसान होता है और इसके लिए थोड़ा अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

एक स्कीमा के साथ StatsGen घटक का उपयोग करना

एक पाइपलाइन के पहले रन के लिए, एक स्कीमा का अनुमान लगाने के लिए स्टैटिस्टिक्सजेन के आउटपुट का उपयोग किया जाएगा। हालांकि, बाद के रन पर आपके पास मैन्युअल रूप से क्यूरेट किया गया स्कीमा हो सकता है जिसमें आपके डेटा सेट के बारे में अतिरिक्त जानकारी हो। स्टैटिस्टिक्सजेन को यह स्कीमा प्रदान करके, टीएफडीवी आपके डेटा सेट के घोषित गुणों के आधार पर अधिक उपयोगी आंकड़े प्रदान कर सकता है।

इस सेटिंग में, आप एक क्यूरेटेड स्कीमा के साथ स्टैटिस्टिक्सजेन का आह्वान करेंगे जिसे एक ImporterNode द्वारा इस तरह से आयात किया गया है:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

एक क्यूरेटेड स्कीमा बनाना

TFX में Schema TensorFlow मेटाडेटा Schema प्रोटो का एक उदाहरण है। इसे स्क्रैच से टेक्स्ट फॉर्मेट में बनाया जा सकता है। हालाँकि, SchemaGen द्वारा निर्मित अनुमानित स्कीमा को एक प्रारंभिक बिंदु के रूप में उपयोग करना आसान है। एक बार जब SchemaGen घटक निष्पादित हो जाता है, तो स्कीमा निम्नलिखित पथ में पाइपलाइन रूट के नीचे स्थित होगी:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

जहां <artifact_id> MLMD में स्कीमा के इस संस्करण के लिए एक अद्वितीय आईडी का प्रतिनिधित्व करता है। इस स्कीमा प्रोटो को तब डेटासेट के बारे में जानकारी संप्रेषित करने के लिए संशोधित किया जा सकता है जिसका विश्वसनीय रूप से अनुमान नहीं लगाया जा सकता है, जो StatisticsGen के आउटपुट को अधिक उपयोगी बना देगा और ExampleValidator घटक में किए गए सत्यापन को और अधिक कठोर बना देगा।

अधिक विवरण स्टैटिस्टिक्सजेन एपीआई संदर्भ में उपलब्ध हैं।