SchemaGen TFX Boru Hattı Bileşeni

Bazı TFX bileşenleri şema adı verilen veri girişi için bir açıklama kullanın. Şema bir örneğidir schema.proto . Bir özelliğin tüm örneklerde bulunması gerekip gerekmediği, izin verilen değer aralıkları ve diğer özellikler için özellik değerleri için veri türlerini belirleyebilir. Bir SchemaGen işlem hattı bileşeni, eğitim verilerinden türler, kategoriler ve aralıklar çıkararak otomatik olarak bir şema oluşturacaktır.

  • Tüketim: Bir StatisticsGen bileşeninden istatistikler
  • Emits: Veri şeması protokolü

İşte bir şema protokolünden bir alıntı:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Aşağıdaki TFX kitaplıkları şemayı kullanır:

  • TensorFlow Veri Doğrulaması
  • TensorFlow Dönüşümü
  • TensorFlow Model Analizi

Tipik bir TFX işlem hattında SchemaGen, diğer işlem hattı bileşenleri tarafından tüketilen bir şema oluşturur. Ancak, otomatik olarak oluşturulan şema en iyi çabadır ve yalnızca verilerin temel özelliklerini çıkarmaya çalışır. Geliştiricilerin gerektiğinde gözden geçirmesi ve değiştirmesi beklenir.

Değiştirilen şema, ImportSchemaGen bileşeni kullanılarak işlem hattına geri getirilebilir. İlk şema oluşturma için SchemaGen bileşeni kaldırılabilir ve tüm aşağı akış bileşenleri ImportSchemaGen çıktısını kullanabilir. Ayrıca eklemek için tavsiye edilir ExampleValidator sürekli eğitim verileri incelemek ithal şemayı kullanan.

SchemaGen ve TensorFlow Veri Doğrulaması

SchemaGen geniş kullanımı yapar TensorFlow Veri Doğrulama bir şema çıkarım için.

SchemaGen Bileşenini Kullanma

İlk şema üretimi için

Bir SchemaGen işlem hattı bileşeninin dağıtımı genellikle çok kolaydır ve çok az özelleştirme gerektirir. Tipik kod şöyle görünür:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Daha fazla detay mevcuttur SchemaGen API başvurusu .

İncelenen şema içe aktarma için

Gözden geçirilmiş şema tanımını işlem hattına getirmek için işlem hattına ImportSchemaGen bileşeni ekleyin.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file metin protobuf dosyasının tam yolu olmalıdır.

Daha fazla detay mevcuttur ImportSchemaGen API başvurusu .