Niektóre komponenty TFX używają opisu danych wejściowych zwanego schematem . Schemat jest instancją schema.proto . Może określać typy danych dla wartości funkcji, czy funkcja ma być obecna we wszystkich przykładach, dozwolone zakresy wartości i inne właściwości. Składnik potoku SchemaGen automatycznie wygeneruje schemat na podstawie typów, kategorii i zakresów na podstawie danych szkoleniowych.
- Zużywa: statystyki ze składnika StatisticsGen
- Emituje: Protokół danych schematu
Oto fragment prototypu schematu:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
Poniższe biblioteki TFX używają schematu:
- Walidacja danych TensorFlow
- Transformacja TensorFlow
- Analiza modelu TensorFlow
W typowym potoku TFX SchemaGen generuje schemat, który jest używany przez inne składniki potoku.
Walidacja danych SchemaGen i TensorFlow
SchemaGen w szerokim zakresie wykorzystuje walidację danych TensorFlow do wnioskowania o schemacie.
Korzystanie ze składnika SchemaGen
Składnik potoku SchemaGen jest zwykle bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowania. Typowy kod wygląda następująco:
from tfx import components
...
infer_schema = components.SchemaGen(
statistics=compute_training_stats.outputs['statistics'])