Komponen Pipa TFX StatisticsGen

Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

Komponen pipeline TFX StatisticsGen menghasilkan statistik fitur pada data pelatihan dan penyajian, yang dapat digunakan oleh komponen pipeline lainnya. StatisticsGen menggunakan Beam untuk menskalakan ke kumpulan data besar.

  • Konsumsi: kumpulan data yang dibuat oleh komponen pipeline ExampleGen.
  • Memancarkan: Statistik kumpulan data.

Validasi Data StatisticsGen dan TensorFlow

StatisticsGen membuat ekstensif menggunakan TensorFlow Validasi Data untuk menghasilkan statistik dari dataset Anda.

Menggunakan Komponen StatsGen

Komponen pipeline StatisticsGen biasanya sangat mudah diterapkan dan memerlukan sedikit penyesuaian. Kode khas terlihat seperti ini:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Menggunakan Komponen StatsGen Dengan Skema

Untuk menjalankan pipa pertama, output dari StatisticsGen akan digunakan untuk menyimpulkan skema. Namun, pada proses berikutnya Anda mungkin memiliki skema yang dikuratori secara manual yang berisi informasi tambahan tentang kumpulan data Anda. Dengan memberikan skema ini ke StatisticsGen, TFDV dapat memberikan statistik yang lebih berguna berdasarkan properti yang dideklarasikan dari kumpulan data Anda.

Dalam pengaturan ini, Anda akan memanggil StatisticsGen dengan skema kurasi yang telah diimpor oleh ImporterNode seperti ini:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Membuat Skema Terkurasi

Schema di TFX adalah turunan dari TensorFlow Metadata Schema proto . Hal ini dapat disusun dalam format teks dari awal. Namun, lebih mudah untuk menggunakan skema disimpulkan diproduksi oleh SchemaGen sebagai titik awal. Setelah SchemaGen komponen telah dieksekusi, skema akan berada di bawah akar pipa di lintasan berikut:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Di mana <artifact_id> merupakan ID unik untuk versi ini skema di MLMD. Skema proto ini kemudian dapat dimodifikasi untuk mengkomunikasikan informasi tentang dataset yang tidak dapat dipercaya disimpulkan, yang akan membuat output dari StatisticsGen lebih berguna dan validasi dilakukan di ExampleValidator komponen yang lebih ketat.

Keterangan lebih lanjut tersedia di StatisticsGen API referensi .