Odpowiedz już dziś na lokalne wydarzenie TensorFlow Everywhere!
Ta strona została przetłumaczona przez Cloud Translation API.
Switch to English

Składnik potoków StatisticsGen TFX

Składnik potoku StatisticsGen TFX generuje statystyki funkcji dotyczące zarówno danych uczących, jak i udostępniających, które mogą być używane przez inne składniki potoku. StatisticsGen używa Beam do skalowania do dużych zbiorów danych.

  • Zużywa: zestawy danych utworzone przez składnik potoku ExampleGen.
  • Emisje: statystyki zbioru danych.

Weryfikacja danych StatisticsGen i TensorFlow

StatisticsGen w szerokim zakresie korzysta z TensorFlow Data Validation do generowania statystyk na podstawie zbioru danych.

Korzystanie ze składnika StatsGen

Składnik potoku StatisticsGen jest zwykle bardzo łatwy do wdrożenia i wymaga niewielkich dostosowań. Typowy kod wygląda następująco:

from tfx import components

...

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

Używanie składnika StatsGen ze schematem

W przypadku pierwszego uruchomienia potoku dane wyjściowe StatisticsGen zostaną użyte do wywnioskowania schematu. Jednak przy kolejnych uruchomieniach może istnieć ręcznie wybrany schemat zawierający dodatkowe informacje o zestawie danych. Dostarczając ten schemat do StatisticsGen, TFDV może zapewnić bardziej przydatne statystyki w oparciu o zadeklarowane właściwości zestawu danych.

W tym ustawieniu wywołasz StatisticsGen z wyselekcjonowanym schematem, który został zaimportowany przez ImporterNode w następujący sposób:

from tfx import components
from tfx.types import standard_artifacts

...

user_schema_importer = components.ImporterNode(
    instance_name='import_user_schema',
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema)

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

Tworzenie wyselekcjonowanego schematu

Schema w TFX jest instancją protokołu TensorFlow Metadata Schema . Można to od podstaw ułożyć w formacie tekstowym . Jednak łatwiej jest użyć wywnioskowanego schematu utworzonego przez SchemaGen jako punktu wyjścia. Po SchemaGen składnika SchemaGen schemat zostanie umieszczony w katalogu głównym potoku w następującej ścieżce:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

Gdzie <artifact_id> reprezentuje unikalny identyfikator dla tej wersji schematu w MLMD. Ten schemat schematu można następnie zmodyfikować w celu przekazania informacji o zbiorze danych, których nie można wiarygodnie wywnioskować, co sprawi, że dane wyjściowe StatisticsGen bardziej przydatne, a walidacja wykonana w składniku ExampleValidator bardziej rygorystyczna.