Komponent potoku StatisticsGen TFX

Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Składnik potoku StatisticsGen TFX generuje statystyki funkcji dotyczące danych uczących i obsługujących, które mogą być używane przez inne składniki potoku. StatisticsGen używa Beam do skalowania do dużych zbiorów danych.

  • Zużywa: zestawy danych utworzone przez składnik potoku ExampleGen.
  • Emisje: statystyki zbioru danych.

StatisticsGen i Walidacja danych TensorFlow

StatisticsGen szeroko wykorzystują TensorFlow sprawdzania poprawności danych do generowania statystyk z zestawu danych.

Korzystanie z komponentu StatsGen

Komponent potoku StatisticsGen jest zazwyczaj bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowania. Typowy kod wygląda tak:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Używanie komponentu StatsGen ze schematem

W przypadku pierwszego uruchomienia potoku dane wyjściowe StatisticsGen zostaną użyte do wywnioskowania schematu. Jednak w kolejnych uruchomieniach możesz mieć ręcznie nadzorowany schemat, który zawiera dodatkowe informacje o zestawie danych. Dostarczając ten schemat do StatisticsGen, TFDV może zapewnić bardziej przydatne statystyki oparte na zadeklarowanych właściwościach zestawu danych.

W tym ustawieniu wywołasz StatisticsGen z wyselekcjonowanym schematem, który został zaimportowany przez ImporterNode w następujący sposób:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Tworzenie wyselekcjonowanego schematu

Schema się TFX jest wystąpienie TensorFlow Metadane Schema proto . To może być złożony w formacie tekstowym od podstaw. Jednak łatwiej jest użyć wywieść schematu produkowanego przez SchemaGen jako punkt wyjściowy. Po SchemaGen komponent został wykonany, schemat zostanie zlokalizowany w katalogu głównym rurociągu w następującej ścieżce:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Gdzie <artifact_id> reprezentuje unikalny identyfikator dla tej wersji schematu w MLMD. Ten schemat proto może być następnie modyfikowane w celu przekazywania informacji o zbiorze danych, których nie można w wiarygodny sposób wywnioskować, co sprawi, że wyjście StatisticsGen bardziej użyteczny i walidacji przeprowadzonej w ExampleValidator składnik bardziej rygorystyczne.

Więcej szczegółów można znaleźć w dokumentacji API StatisticsGen .