Alcuni componenti TFX utilizzano una descrizione dei dati di input chiamata schema . Lo schema è un'istanza di schema.proto . Può specificare i tipi di dati per i valori delle caratteristiche, se una caratteristica deve essere presente in tutti gli esempi, gli intervalli di valori consentiti e altre proprietà. Un componente della pipeline SchemaGen genererà automaticamente uno schema deducendo tipi, categorie e intervalli dai dati di addestramento.
- Consume: statistiche da un componente StatisticsGen
- Emette: protocollo schema dati
Ecco un estratto da un prototipo di schema:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
Le seguenti librerie TFX utilizzano lo schema:
- Convalida dati TensorFlow
- Trasformazione TensorFlow
- Analisi del modello TensorFlow
In una tipica pipeline TFX SchemaGen genera uno schema, che viene utilizzato dagli altri componenti della pipeline.
Convalida dati SchemaGen e TensorFlow
SchemaGen fa ampio uso di TensorFlow Data Validation per inferire uno schema.
Utilizzo del componente SchemaGen
Un componente della pipeline SchemaGen è in genere molto facile da distribuire e richiede poca personalizzazione. Il codice tipico ha questo aspetto:
from tfx import components
...
infer_schema = components.SchemaGen(
statistics=compute_training_stats.outputs['statistics'])