Проверка данных с использованием TFX Pipeline и TensorFlow Data Validation

В этом руководстве на основе записной книжки мы создадим и запустим конвейеры TFX для проверки входных данных и создания модели машинного обучения. Этот ноутбук на основе TFX трубопровода мы построили в простой TFX Pipeline Учебник . Если вы еще не читали это руководство, прочтите его, прежде чем приступить к работе с этой записной книжкой.

Первая задача в любом проекте по науке о данных или машинному обучению — понять и очистить данные, что включает в себя:

  • Понимание типов данных, распределения и другой информации (например, среднего значения или количества уникальных посетителей) о каждой функции
  • Создание предварительной схемы, описывающей данные
  • Выявление аномалий и пропущенных значений в данных по заданной схеме

В этом руководстве мы создадим два конвейера TFX.

Во-первых, мы создадим конвейер для анализа набора данных и создадим предварительную схему данного набора данных. Этот трубопровод будет включать в себя два новых компонента, StatisticsGen и SchemaGen .

Как только у нас будет правильная схема данных, мы создадим конвейер для обучения модели классификации машинного обучения на основе конвейера из предыдущего руководства. В этом трубопроводе, мы будем использовать схему из первого трубопровода и нового компонента, ExampleValidator , для проверки входных данных.

Три новые компоненты, StatisticsGen, SchemaGen и ExampleValidator, являются компонентами TFX для анализа и проверок данных, и они реализуются с помощью TensorFlow Data Validation библиотеки.

См Понимание TFX трубопроводов более узнать о различных концепциях в TFX.


Сначала нам нужно установить пакет TFX Python и загрузить набор данных, который мы будем использовать для нашей модели.

Обновить Pip

Чтобы избежать обновления Pip в системе при локальном запуске, убедитесь, что мы работаем в Colab. Конечно, локальные системы можно модернизировать отдельно.

  import colab
  !pip install --upgrade pip

Установить TFX

pip install -U tfx

Вы перезапускали среду выполнения?

Если вы используете Google Colab, при первом запуске указанной выше ячейки вы должны перезапустить среду выполнения, нажав кнопку «ПЕРЕЗАГРУЗИТЬ ВРЕМЯ» выше или используя меню «Время выполнения> Перезапустить среду выполнения ...». Это связано с тем, как Colab загружает пакеты.

Проверьте версии TensorFlow и TFX.

import tensorflow as tf
print('TensorFlow version: {}'.format(tf.__version__))
from tfx import v1 as tfx
print('TFX version: {}'.format(tfx.__version__))
TensorFlow version: 2.6.2
TFX version: 1.4.0

Настроить переменные

Для определения конвейера используются некоторые переменные. Вы можете настроить эти переменные по своему усмотрению. По умолчанию весь вывод из конвейера будет генерироваться в текущем каталоге.

import os

# We will create two pipelines. One for schema generation and one for training.
SCHEMA_PIPELINE_NAME = "penguin-tfdv-schema"
PIPELINE_NAME = "penguin-tfdv"

# Output directory to store artifacts generated from the pipeline.
PIPELINE_ROOT = os.path.join('pipelines', PIPELINE_NAME)
# Path to a SQLite DB file to use as an MLMD storage.
METADATA_PATH = os.path.join('metadata', PIPELINE_NAME, 'metadata.db')

# Output directory where created models from the pipeline will be exported.
SERVING_MODEL_DIR = os.path.join('serving_model', PIPELINE_NAME)

from absl import logging
logging.set_verbosity(logging.INFO)  # Set default logging level.

Подготовить пример данных

Мы загрузим пример набора данных для использования в нашем конвейере TFX. Набор данных мы используем это Palmer Пингвины набор данных , который также используется в других примерах TFX .

В этом наборе данных есть четыре числовых объекта:

  • culmen_length_mm
  • culmen_depth_mm
  • flipper_length_mm
  • body_mass_g

Все функции уже были нормализованы, чтобы иметь диапазон [0,1]. Мы будем строить модель классификации , которая предсказывает species пингвинов.

Поскольку компонент TFX ExampleGen считывает входные данные из каталога, нам нужно создать каталог и скопировать в него набор данных.

import urllib.request
import tempfile

DATA_ROOT = tempfile.mkdtemp(prefix='tfx-data')  # Create a temporary directory.
_data_url = 'https://raw.githubusercontent.com/tensorflow/tfx/master/tfx/examples/penguin/data/labelled/penguins_processed.csv'
_data_filepath = os.path.join(DATA_ROOT, "data.csv")
urllib.request.urlretrieve(_data_url, _data_filepath)
('/tmp/tfx-datan3p7t1d2/data.csv', <http.client.HTTPMessage at 0x7f8d2f9f9110>)

Взгляните на файл CSV.

head {_data_filepath}

Вы должны увидеть пять столбцов с характеристиками. species является одним из 0, 1 или 2, а все остальные функции должны иметь значения от 0 до 1. Мы создадим TFX трубопровода для анализа этого набора данных.

Сгенерируйте предварительную схему

Конвейеры TFX определяются с помощью API Python. Мы создадим конвейер для автоматического создания схемы из входных примеров. Эта схема может быть просмотрена человеком и при необходимости скорректирована. Как только схема будет завершена, ее можно использовать для обучения и проверки примеров в последующих задачах.

В дополнение к CsvExampleGen , который используется в простой TFX Pipeline учебник , мы будем использовать StatisticsGen и SchemaGen :

  • StatisticsGen вычисляет статистику для набора данных.
  • SchemaGen анализирует статистику и создает первоначальную схему данных.

Смотрите направляющие для каждого компонента или компонентов TFX учебник , чтобы узнать больше об этих компонентах.

Напишите определение конвейера

Мы определяем функцию для создания конвейера TFX. Pipeline объект представляет собой TFX трубопровод , который может быть запущен с помощью одного из трубопроводов систем оркестровки что TFX опор.

def _create_schema_pipeline(pipeline_name: str,
                            pipeline_root: str,
                            data_root: str,
                            metadata_path: str) -> tfx.dsl.Pipeline:
  """Creates a pipeline for schema generation."""
  # Brings data into the pipeline.
  example_gen = tfx.components.CsvExampleGen(input_base=data_root)

  # NEW: Computes statistics over data for visualization and schema generation.
  statistics_gen = tfx.components.StatisticsGen(

  # NEW: Generates schema based on the generated statistics.
  schema_gen = tfx.components.SchemaGen(
      statistics=statistics_gen.outputs['statistics'], infer_feature_shape=True)

  components = [

  return tfx.dsl.Pipeline(

Запустите конвейер

Мы будем использовать LocalDagRunner , как и в предыдущем уроке.

Вы должны увидеть «INFO: absl: Component Pusher is finished». если конвейер завершился успешно.

Изучите выходы трубопровода

Мы обучили модель классификации пингвинов, а также проверили входные примеры в компоненте ExampleValidator. Мы можем анализировать выходные данные ExampleValidator, как мы это делали с предыдущим конвейером.

metadata_connection_config = tfx.orchestration.metadata.sqlite_metadata_connection_config(

with Metadata(metadata_connection_config) as metadata_handler:
  ev_output = get_latest_artifacts(metadata_handler, PIPELINE_NAME,
  anomalies_artifacts = ev_output[standard_component_specs.ANOMALIES_KEY]
INFO:absl:MetadataStore with DB connection initialized

Также можно визуализировать аномалии примеров из ExampleValidator.


Вы должны увидеть «Аномалии не обнаружены» для каждой группы примеров. Поскольку мы использовали те же данные, которые использовались для генерации схемы в этом конвейере, здесь не ожидается никаких аномалий. Если вы повторно запускаете этот конвейер с новыми входящими данными, ExampleValidator сможет найти любые расхождения между новыми данными и существующей схемой.

Если были обнаружены какие-либо аномалии, вы можете просмотреть свои данные, чтобы убедиться, что какие-либо примеры не соответствуют вашим предположениям. Могут быть полезны выходные данные других компонентов, таких как StatisticsGen. Однако любые обнаруженные аномалии НЕ блокируют дальнейшее выполнение конвейера.

Следующие шаги

Вы можете найти больше ресурсов на https://www.tensorflow.org/tfx/tutorials

См Понимание TFX трубопроводов более узнать о различных концепциях в TFX.