Odpowiedz już dziś na lokalne wydarzenie TensorFlow Everywhere!
Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Składnik SchemaGen TFX Pipeline

Niektóre komponenty TFX używają opisu danych wejściowych zwanego schematem . Schemat jest instancją schema.proto . Może określać typy danych dla wartości funkcji, czy funkcja ma być obecna we wszystkich przykładach, dozwolone zakresy wartości i inne właściwości. Składnik potoku SchemaGen automatycznie wygeneruje schemat na podstawie typów, kategorii i zakresów na podstawie danych szkoleniowych.

  • Zużywa: statystyki ze składnika StatisticsGen
  • Emituje: Protokół danych schematu

Oto fragment prototypu schematu:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Poniższe biblioteki TFX używają schematu:

  • Walidacja danych TensorFlow
  • Transformacja TensorFlow
  • Analiza modelu TensorFlow

W typowym potoku TFX SchemaGen generuje schemat, który jest używany przez inne składniki potoku.

Walidacja danych SchemaGen i TensorFlow

SchemaGen w szerokim zakresie wykorzystuje walidację danych TensorFlow do wnioskowania o schemacie.

Korzystanie ze składnika SchemaGen

Składnik potoku SchemaGen jest zwykle bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowania. Typowy kod wygląda następująco:

from tfx import components

...

infer_schema = components.SchemaGen(
    statistics=compute_training_stats.outputs['statistics'])