Treten Sie der SIG TFX-Addons-Community bei und helfen Sie mit, TFX noch besser zu machen! SIG TFX-Addons beitreten

Die SchemaGen TFX-Pipeline-Komponente

Einige TFX-Komponenten verwenden eine Beschreibung Ihrer Eingabedaten, die als Schema bezeichnet wird . Das Schema ist eine Instanz von schema.proto . Es kann Datentypen für Feature-Werte angeben, unabhängig davon, ob ein Feature in allen Beispielen, zulässigen Wertebereichen und anderen Eigenschaften vorhanden sein muss. Eine SchemaGen-Pipelinekomponente generiert automatisch ein Schema, indem sie Typen, Kategorien und Bereiche aus den Trainingsdaten ableitet.

  • Verbraucht: Statistiken aus einer StatisticsGen-Komponente
  • Emits: Datenschema proto

Hier ist ein Auszug aus einem Schema-Proto:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Die folgenden TFX-Bibliotheken verwenden das Schema:

  • TensorFlow-Datenvalidierung
  • TensorFlow-Transformation
  • TensorFlow-Modellanalyse

In einer typischen TFX-Pipeline generiert SchemaGen ein Schema, das von den anderen Pipeline-Komponenten verwendet wird.

SchemaGen- und TensorFlow-Datenvalidierung

SchemaGen verwendet die TensorFlow- Datenvalidierung in großem Umfang, um auf ein Schema zu schließen.

Verwenden der SchemaGen-Komponente

Eine SchemaGen-Pipelinekomponente ist normalerweise sehr einfach bereitzustellen und erfordert nur wenige Anpassungen. Typischer Code sieht folgendermaßen aus:

infer_schema = SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Weitere Details finden Sie in der SchemaGen-API-Referenz .