Questa pagina è stata tradotta dall'API Cloud Translation.
Switch to English

Il componente SchemaGen TFX Pipeline

Alcuni componenti TFX utilizzano una descrizione dei dati di input chiamata schema . Lo schema è un'istanza di schema.proto . Può specificare i tipi di dati per i valori delle caratteristiche, se una caratteristica deve essere presente in tutti gli esempi, gli intervalli di valori consentiti e altre proprietà. Un componente della pipeline SchemaGen genererà automaticamente uno schema deducendo tipi, categorie e intervalli dai dati di addestramento.

  • Consume: statistiche da un componente StatisticsGen
  • Emette: protocollo schema dati

Ecco un estratto da un prototipo di schema:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Le seguenti librerie TFX utilizzano lo schema:

  • Convalida dati TensorFlow
  • Trasformazione TensorFlow
  • Analisi del modello TensorFlow

In una tipica pipeline TFX SchemaGen genera uno schema, che viene utilizzato dagli altri componenti della pipeline.

Convalida dati SchemaGen e TensorFlow

SchemaGen fa ampio uso di TensorFlow Data Validation per inferire uno schema.

Utilizzo del componente SchemaGen

Un componente della pipeline SchemaGen è in genere molto facile da distribuire e richiede poca personalizzazione. Il codice tipico ha questo aspetto:

from tfx import components

...

infer_schema = components.SchemaGen(
    statistics=compute_training_stats.outputs['statistics'])