Składnik potoku StatisticsGen TFX generuje statystyki funkcji dotyczące danych uczących i obsługujących, które mogą być używane przez inne składniki potoku. StatisticsGen używa Beam do skalowania do dużych zbiorów danych.
- Zużywa: zestawy danych utworzone przez składnik potoku ExampleGen.
- Emisje: statystyki zbioru danych.
StatisticsGen i Walidacja danych TensorFlow
StatisticsGen szeroko wykorzystują TensorFlow sprawdzania poprawności danych do generowania statystyk z zestawu danych.
Korzystanie z komponentu StatsGen
Komponent potoku StatisticsGen jest zazwyczaj bardzo łatwy do wdrożenia i wymaga niewielkiego dostosowania. Typowy kod wygląda tak:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
Używanie komponentu StatsGen ze schematem
W przypadku pierwszego uruchomienia potoku dane wyjściowe StatisticsGen zostaną użyte do wywnioskowania schematu. Jednak w kolejnych uruchomieniach możesz mieć ręcznie nadzorowany schemat, który zawiera dodatkowe informacje o zestawie danych. Dostarczając ten schemat do StatisticsGen, TFDV może zapewnić bardziej przydatne statystyki oparte na zadeklarowanych właściwościach zestawu danych.
W tym ustawieniu wywołasz StatisticsGen z wyselekcjonowanym schematem, który został zaimportowany przez ImporterNode w następujący sposób:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
Tworzenie wyselekcjonowanego schematu
Schema
się TFX jest wystąpienie TensorFlow Metadane Schema
proto . To może być złożony w formacie tekstowym od podstaw. Jednak łatwiej jest użyć wywieść schematu produkowanego przez SchemaGen
jako punkt wyjściowy. Po SchemaGen
komponent został wykonany, schemat zostanie zlokalizowany w katalogu głównym rurociągu w następującej ścieżce:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
Gdzie <artifact_id>
reprezentuje unikalny identyfikator dla tej wersji schematu w MLMD. Ten schemat proto może być następnie modyfikowane w celu przekazywania informacji o zbiorze danych, których nie można w wiarygodny sposób wywnioskować, co sprawi, że wyjście StatisticsGen
bardziej użyteczny i walidacji przeprowadzonej w ExampleValidator
składnik bardziej rygorystyczne.
Więcej szczegółów można znaleźć w dokumentacji API StatisticsGen .