Unisciti alla comunità SIG TFX-Addons e contribuisci a rendere TFX ancora migliore!

Il componente SchemaGen TFX Pipeline

Alcuni componenti TFX utilizzano una descrizione dei dati di input chiamata schema . Lo schema è un'istanza di schema.proto . Può specificare i tipi di dati per i valori delle caratteristiche, se una caratteristica deve essere presente in tutti gli esempi, gli intervalli di valori consentiti e altre proprietà. Un componente della pipeline SchemaGen genererà automaticamente uno schema deducendo tipi, categorie e intervalli dai dati di addestramento.

  • Consume: statistiche da un componente StatisticsGen
  • Emette: protocollo schema dati

Ecco un estratto da un prototipo di schema:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Le seguenti librerie TFX utilizzano lo schema:

  • Convalida dati TensorFlow
  • Trasformazione TensorFlow
  • Analisi del modello TensorFlow

In una tipica pipeline TFX SchemaGen genera uno schema, che viene utilizzato dagli altri componenti della pipeline.

Convalida dei dati SchemaGen e TensorFlow

SchemaGen fa ampio uso di TensorFlow Data Validation per inferire uno schema.

Utilizzo del componente SchemaGen

Un componente della pipeline SchemaGen è in genere molto facile da distribuire e richiede poca personalizzazione. Il codice tipico ha questo aspetto:

infer_schema = SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Maggiori dettagli sono disponibili nel riferimento API SchemaGen .