O componente de pipeline StatisticsGen TFX

Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

O componente de pipeline StatisticsGen TFX gera estatísticas de recursos sobre os dados de treinamento e serviço, que podem ser usadas por outros componentes de pipeline. StatisticsGen usa Beam para escalar para grandes conjuntos de dados.

  • Consome: conjuntos de dados criados por um componente do pipeline ExampleGen.
  • Emite: estatísticas do conjunto de dados.

Validação de dados StatisticsGen e TensorFlow

StatisticsGen faz uso extensivo de TensorFlow validação de dados para a geração de estatísticas do conjunto de dados.

Usando o componente StatsGen

Um componente de pipeline do StatisticsGen é normalmente muito fácil de implantar e requer pouca personalização. O código típico é assim:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Usando o componente StatsGen com um esquema

Para a primeira execução de um pipeline, a saída de StatisticsGen será usada para inferir um esquema. No entanto, em execuções subsequentes, você pode ter um esquema curado manualmente que contém informações adicionais sobre seu conjunto de dados. Ao fornecer este esquema ao StatisticsGen, o TFDV pode fornecer estatísticas mais úteis com base nas propriedades declaradas de seu conjunto de dados.

Nesta configuração, você invocará StatisticsGen com um esquema curado que foi importado por um ImporterNode como este:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Criação de um esquema selecionado

Schema em TFX é um exemplo do TensorFlow metadados Schema proto . Isto pode ser composta em formato de texto a partir do zero. No entanto, é mais fácil de usar o esquema inferido produzido por SchemaGen como um ponto de partida. Uma vez que o SchemaGen componente foi executado, o esquema será localizado sob a raiz do pipeline no seguinte caminho:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Onde <artifact_id> representa um ID exclusivo para esta versão do esquema no MLMD. Este proto esquema pode então ser modificado para comunicar informações sobre o conjunto de dados que não pode ser inferida de forma confiável, o que fará com que a saída do StatisticsGen mais útil e a validação realizada no ExampleValidator componente mais rigorosas.

Mais detalhes estão disponíveis na referência API StatisticsGen .