Компонент конвейера StatisticsGen TFX

Компонент конвейера StatisticsGen TFX генерирует статистику функций по обучающим и обслуживающим данным, которые могут использоваться другими компонентами конвейера. StatisticsGen использует Beam для масштабирования до больших наборов данных.

  • Потребляет: наборы данных, созданные компонентом конвейера ExampleGen.
  • Излучает: статистика набора данных.

Проверка данных StatisticsGen и TensorFlow

StatisticsGen широко использует TensorFlow Data Validation для генерации статистики из набора данных.

Использование компонента StatsGen

Компонент конвейера StatisticsGen обычно очень прост в развертывании и требует небольшой настройки. Типичный код выглядит так:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Использование компонента StatsGen со схемой

Для первого запуска конвейера выходные данные StatisticsGen будут использоваться для вывода схемы. Однако при последующих запусках у вас может быть вручную подобранная схема, содержащая дополнительную информацию о вашем наборе данных. Предоставляя эту схему для StatisticsGen, TFDV может предоставить более полезную статистику на основе заявленных свойств вашего набора данных.

В этом параметре вы вызовете StatisticsGen с тщательно подобранной схемой, которая была импортирована узлом ImporterNode следующим образом:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Создание курируемой схемы

Schema в TFX является экземпляром TensorFlow метаданных Schema прото . Это может быть составлено в текстовом формате с нуля. Однако проще использовать выведенные схемы произведенных SchemaGen в качестве отправной точки. После того , как SchemaGen компонент выполнен, схема будет находиться в корневом каталоге трубопровода в следующем пути:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Где <artifact_id> представляет собой уникальный идентификатор для этой версии схемы в MLMD. Эта схема прото может быть изменено , чтобы передать информацию о наборе данных , которые не могут быть надежно выведенными, что сделает вывод StatisticsGen более полезным и проверки , выполняемых в ExampleValidator компоненте более жесткой.

Более подробная информация доступна в справочнике API StatisticsGen .