Komponen Pipa TFX SchemaGen

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Beberapa komponen TFX menggunakan deskripsi data masukan Anda disebut skema. Skema adalah turunan dari schema.proto . Itu bisa menentukan tipe data untuk nilai fitur, apakah fitur harus ada di semua contoh, rentang nilai yang diizinkan, dan properti lainnya. Komponen pipeline SchemaGen akan secara otomatis menghasilkan skema dengan menyimpulkan jenis, kategori, dan rentang dari data pelatihan.

  • Konsumsi: statistik dari komponen StatisticsGen
  • Memancarkan: Proto skema data

Berikut kutipan dari proto skema:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Pustaka TFX berikut menggunakan skema:

  • Validasi Data TensorFlow
  • Transformasi TensorFlow
  • Analisis Model TensorFlow

Dalam skema pipa TFX khas, SchemaGen menghasilkan skema, yang dikonsumsi oleh komponen pipa lainnya. Namun, skema yang dibuat secara otomatis adalah upaya terbaik dan hanya mencoba menyimpulkan properti dasar data. Diharapkan pengembang meninjau dan memodifikasinya sesuai kebutuhan.

Skema yang dimodifikasi dapat dibawa kembali ke dalam pipeline menggunakan komponen ImportSchemaGen. Komponen SchemaGen untuk pembuatan skema awal dapat dihapus dan semua komponen hilir dapat menggunakan output ImportSchemaGen. Hal ini juga dianjurkan untuk menambahkan ExampleValidator menggunakan skema diimpor untuk memeriksa data pelatihan terus menerus.

Validasi Data SchemaGen dan TensorFlow

SchemaGen membuat ekstensif menggunakan TensorFlow Validasi Data untuk menyimpulkan skema.

Menggunakan Komponen SchemaGen

Untuk pembuatan skema awal

Komponen pipeline SchemaGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode khas terlihat seperti ini:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Keterangan lebih lanjut tersedia di SchemaGen API referensi .

Untuk impor skema yang ditinjau

Tambahkan komponen ImportSchemaGen ke pipeline untuk membawa definisi skema yang ditinjau ke dalam pipeline.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

The schema_file harus path lengkap ke file protobuf teks.

Keterangan lebih lanjut tersedia di ImportSchemaGen API referensi .