RSVP para seu evento TensorFlow Everywhere hoje mesmo!
Esta página foi traduzida pela API Cloud Translation.
Switch to English

O Componente de Pipeline SchemaGen TFX

Alguns componentes TFX usam uma descrição de seus dados de entrada chamada de esquema . O esquema é uma instância de schema.proto . Ele pode especificar tipos de dados para valores de recursos, se um recurso deve estar presente em todos os exemplos, intervalos de valores permitidos e outras propriedades. Um componente de pipeline SchemaGen irá gerar automaticamente um esquema inferindo tipos, categorias e intervalos dos dados de treinamento.

  • Consome: estatísticas de um componente StatisticsGen
  • Emite: protocolo de esquema de dados

Aqui está um trecho de um protótipo de esquema:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

As seguintes bibliotecas TFX usam o esquema:

  • Validação de dados do TensorFlow
  • TensorFlow Transform
  • Análise de modelo do TensorFlow

Em um pipeline TFX típico, o SchemaGen gera um esquema, que é consumido pelos outros componentes do pipeline.

Validação de dados SchemaGen e TensorFlow

SchemaGen faz uso extensivo da validação de dados TensorFlow para inferir um esquema.

Usando o componente SchemaGen

Um componente de pipeline SchemaGen é normalmente muito fácil de implantar e requer pouca personalização. O código típico se parece com isto:

from tfx import components

...

infer_schema = components.SchemaGen(
    statistics=compute_training_stats.outputs['statistics'])