स्कीमजेन टीएफएक्स पाइपलाइन घटक

कुछ TFX घटक आपके इनपुट डेटा के विवरण का उपयोग करते हैं जिसे स्कीमा कहा जाता है। स्कीमा schema.proto का एक उदाहरण है। यह फ़ीचर मानों के लिए डेटा प्रकार निर्दिष्ट कर सकता है, चाहे कोई फ़ीचर सभी उदाहरणों, अनुमत मान श्रेणियों और अन्य गुणों में मौजूद हो। एक SchemaGen पाइपलाइन घटक स्वचालित रूप से प्रशिक्षण डेटा से प्रकार, श्रेणियों और श्रेणियों का अनुमान लगाकर एक स्कीमा उत्पन्न करेगा।

  • उपभोग: स्टैटिस्टिक्सजेन घटक से आँकड़े
  • उत्सर्जन: डेटा स्कीमा प्रोटो

यहां स्कीमा प्रोटो का एक अंश दिया गया है:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

निम्नलिखित TFX लाइब्रेरीज़ स्कीमा का उपयोग करती हैं:

  • टेंसरफ़्लो डेटा सत्यापन
  • टेंसरफ़्लो ट्रांसफ़ॉर्म
  • टेंसरफ़्लो मॉडल विश्लेषण

एक विशिष्ट टीएफएक्स पाइपलाइन में SchemaGen एक स्कीमा उत्पन्न करता है, जिसका उपभोग अन्य पाइपलाइन घटकों द्वारा किया जाता है। हालाँकि, स्वतः-जनित स्कीमा सर्वोत्तम प्रयास है और केवल डेटा के मूल गुणों का अनुमान लगाने का प्रयास करता है। यह अपेक्षा की जाती है कि डेवलपर्स इसकी समीक्षा करें और आवश्यकतानुसार इसमें संशोधन करें।

संशोधित स्कीमा को ImpactSchemaGen घटक का उपयोग करके पाइपलाइन में वापस लाया जा सकता है। प्रारंभिक स्कीमा पीढ़ी के लिए SchemaGen घटक को हटाया जा सकता है और सभी डाउनस्ट्रीम घटक आयातSchemaGen के आउटपुट का उपयोग कर सकते हैं। प्रशिक्षण डेटा की लगातार जांच करने के लिए आयातित स्कीमा का उपयोग करके exampleValidator जोड़ने की भी अनुशंसा की जाती है।

SchemaGen और TensorFlow डेटा सत्यापन

SchemaGen किसी स्कीम का अनुमान लगाने के लिए TensorFlow डेटा वैलिडेशन का व्यापक उपयोग करता है।

स्कीमजेन घटक का उपयोग करना

प्रारंभिक स्कीमा पीढ़ी के लिए

स्कीमजेन पाइपलाइन घटक को तैनात करना आम तौर पर बहुत आसान होता है और इसके लिए कम अनुकूलन की आवश्यकता होती है। विशिष्ट कोड इस तरह दिखता है:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

अधिक विवरण SchemaGen API संदर्भ में उपलब्ध हैं।

समीक्षित स्कीमा आयात के लिए

समीक्षा की गई स्कीमा परिभाषा को पाइपलाइन में लाने के लिए पाइपलाइन में आयात स्कीमजेन घटक जोड़ें।

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file टेक्स्ट प्रोटोबफ़ फ़ाइल का पूर्ण पथ होना चाहिए।

अधिक विवरण आयात स्कीमजेन एपीआई संदर्भ में उपलब्ध हैं।