Некоторые компоненты TFX использовать описание входных данных называется схемой. Схема является экземпляром schema.proto . Он может указывать типы данных для значений функций, необходимость присутствия функции во всех примерах, допустимые диапазоны значений и другие свойства. Компонент конвейера SchemaGen автоматически генерирует схему, определяя типы, категории и диапазоны из обучающих данных.
- Потребляет: статистика из компонента StatisticsGen.
- Излучает: прототип схемы данных
Вот отрывок из прототипа схемы:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
Следующие библиотеки TFX используют схему:
- Проверка данных TensorFlow
- Преобразование TensorFlow
- Анализ модели TensorFlow
В типичном конвейере TFX SchemaGen генерирует схему, которая используется другими компонентами конвейера. Однако автоматически сгенерированная схема является оптимальной и пытается вывести только основные свойства данных. Ожидается, что разработчики рассмотрят его и при необходимости внесут в него изменения.
Измененную схему можно вернуть в конвейер с помощью компонента ImportSchemaGen. Компонент SchemaGen для первоначального создания схемы может быть удален, и все последующие компоненты могут использовать выходные данные ImportSchemaGen. Кроме того , рекомендуется добавить ExampleValidator с использованием импортированной схемы для изучения обучающих данных непрерывно.
Проверка данных SchemaGen и TensorFlow
SchemaGen широко использует TensorFlow Data Validation для выводя схемы.
Использование компонента SchemaGen
Для первоначальной генерации схемы
Компонент конвейера SchemaGen обычно очень прост в развертывании и требует небольшой настройки. Типичный код выглядит так:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
Более подробная информация доступна в справочнике API SchemaGen .
Для импорта проверенной схемы
Добавьте компонент ImportSchemaGen в конвейер, чтобы перенести проверенное определение схемы в конвейер.
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
должен быть полный путь к файлу текста Protobuf.
Более подробная информация доступна в справочнике API ImportSchemaGen .