Bazı TFX bileşenleri, giriş verilerinizin şema adı verilen bir açıklamasını kullanır. Şema, bir schema.proto örneğidir. Özellik değerleri için veri türlerini, bir özelliğin tüm örneklerde, izin verilen değer aralıklarında ve diğer özelliklerde bulunmasının gerekip gerekmediğini belirleyebilir. Bir SchemaGen ardışık düzen bileşeni, eğitim verilerinden türleri, kategorileri ve aralıkları çıkararak otomatik olarak bir şema oluşturur.
- Tüketim: StatisticsGen bileşeninden istatistikler
- Yayınlar: Veri şeması protokolü
İşte bir şema protokolünden bir alıntı:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
Aşağıdaki TFX kitaplıkları şemayı kullanır:
- TensorFlow Veri Doğrulaması
- TensorFlow Dönüşümü
- TensorFlow Model Analizi
Tipik bir TFX işlem hattında SchemaGen, diğer boru hattı bileşenleri tarafından tüketilen bir şema oluşturur.
SchemaGen ve TensorFlow Veri Doğrulaması
SchemaGen, bir şema çıkarmak için TensorFlow Veri Doğrulamasını kapsamlı bir şekilde kullanır.
SchemaGen Bileşenini Kullanma
Bir SchemaGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şuna benzer:
from tfx import components
...
infer_schema = components.SchemaGen(
statistics=compute_training_stats.outputs['statistics'])