Присоединяйтесь к сообществу SIG TFX-Addons и помогите сделать TFX еще лучше!

Компонент конвейера TFX SchemaGen

Некоторые компоненты TFX используют описание ваших входных данных, называемое схемой . Схема является экземпляром schema.proto . Он может указывать типы данных для значений функций, необходимость присутствия функции во всех примерах, допустимые диапазоны значений и другие свойства. Компонент конвейера SchemaGen автоматически генерирует схему, определяя типы, категории и диапазоны из обучающих данных.

  • Потребляет: статистика из компонента StatisticsGen.
  • Излучает: прототип схемы данных

Вот отрывок из прототипа схемы:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

Следующие библиотеки TFX используют схему:

  • Проверка данных TensorFlow
  • Преобразование TensorFlow
  • Анализ модели TensorFlow

В типичном конвейере TFX SchemaGen генерирует схему, которая используется другими компонентами конвейера.

Проверка данных SchemaGen и TensorFlow

SchemaGen широко использует TensorFlow Data Validation для вывода схемы.

Использование компонента SchemaGen

Компонент конвейера SchemaGen обычно очень прост в развертывании и требует небольшой настройки. Типичный код выглядит так:

infer_schema = SchemaGen(
    statistics=stats_gen.outputs['statistics'])

Более подробная информация доступна в справочнике по API SchemaGen .