Компонент конвейера StatisticsGen TFX генерирует статистику функций по обучающим и обслуживающим данным, которые могут использоваться другими компонентами конвейера. StatisticsGen использует Beam для масштабирования до больших наборов данных.
- Потребляет: наборы данных, созданные компонентом конвейера ExampleGen.
- Излучает: статистика набора данных.
Проверка данных StatisticsGen и TensorFlow
StatisticsGen широко использует TensorFlow Data Validation для генерации статистики из набора данных.
Использование компонента StatsGen
Компонент конвейера StatisticsGen обычно очень прост в развертывании и требует небольшой настройки. Типичный код выглядит так:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Использование компонента StatsGen со схемой
Для первого запуска конвейера выходные данные StatisticsGen будут использоваться для вывода схемы. Однако при последующих запусках у вас может быть вручную подобранная схема, содержащая дополнительную информацию о вашем наборе данных. Предоставляя эту схему для StatisticsGen, TFDV может предоставить более полезную статистику на основе заявленных свойств вашего набора данных.
В этом параметре вы вызовете StatisticsGen с тщательно подобранной схемой, которая была импортирована узлом ImporterNode следующим образом:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Создание курируемой схемы
Schema
в TFX является экземпляром TensorFlow метаданных Schema
прото . Это может быть составлено в текстовом формате с нуля. Однако проще использовать выведенные схемы произведенных SchemaGen
в качестве отправной точки. После того , как SchemaGen
компонент выполнен, схема будет находиться в корневом каталоге трубопровода в следующем пути:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Где <artifact_id>
представляет собой уникальный идентификатор для этой версии схемы в MLMD. Эта схема прото может быть изменено , чтобы передать информацию о наборе данных , которые не могут быть надежно выведенными, что сделает вывод StatisticsGen
более полезным и проверки , выполняемых в ExampleValidator
компоненте более жесткой.
Более подробная информация доступна в справочнике API StatisticsGen .