Komponent rurociągu ExampleValidator TFX

Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Komponent potoku ExampleValidator identyfikuje anomalie w szkoleniu i udostępnianiu danych. Może wykrywać różne klasy anomalii w danych. Na przykład może:

  1. przeprowadzać kontrole poprawności, porównując statystyki danych ze schematem, który kodyfikuje oczekiwania użytkownika.
  2. wykrywać przekrzywienie treningu i udostępniania, porównując dane dotyczące treningu i udostępniania.
  3. wykryć dryf danych, patrząc na serię danych.
  4. przeprowadzać niestandardowe walidacje przy użyciu konfiguracji opartej na języku SQL.

Komponent potoku ExampleValidator identyfikuje wszelkie anomalie w przykładowych danych, porównując statystyki danych obliczone przez komponent potoku StatisticsGen ze schematem. Wywnioskowany schemat kodyfikuje właściwości, które dane wejściowe mają spełniać, i które mogą być modyfikowane przez programistę.

  • Zużycie: schemat ze składnika SchemaGen i statystyki ze składnika StatisticsGen.
  • Emituje: Wyniki walidacji

ExampleValidator i TensorFlow Walidacja danych

ExampleValidator szeroko wykorzystuje walidację danych TensorFlow do sprawdzania poprawności danych wejściowych.

Używanie komponentu ExampleValidator

Składnik potoku ExampleValidator jest zazwyczaj bardzo łatwy do wdrożenia i wymaga niewielkich dostosowań. Typowy kod wygląda następująco:

validate_stats = ExampleValidator(
      statistics=statistics_gen.outputs['statistics'],
      schema=schema_gen.outputs['schema']
      )

Więcej szczegółów można znaleźć w dokumentacji interfejsu API ExampleValidator .