SIG TFX-Addons 커뮤니티에 가입하여 TFX를 더욱 향상 시키십시오!

Tensorflow 데이터 유효성 검사 시작하기

Tensorflow 데이터 유효성 검사 (TFDV)는 다음을 위해 학습 및 제공 데이터를 분석 할 수 있습니다.

핵심 API는 노트북 컨텍스트에서 호출 할 수있는 편리한 메서드를 통해 각 기능을 지원합니다.

기술 데이터 통계 계산

TFDV는 존재하는 특징과 가치 분포의 형태 측면에서 데이터의 빠른 개요를 제공하는 기술 통계 를 계산할 수 있습니다. Facets Overview 와 같은 도구는 쉽게 찾아 볼 수 있도록 이러한 통계의 간결한 시각화를 제공 할 수 있습니다.

예를 들어 pathTFRecord 형식 ( tensorflow.Example 유형의 레코드를 보유 tensorflow.Example )의 파일을 가리키는 것으로 가정하십시오. 다음 스 니펫은 TFDV를 사용한 통계 계산을 보여줍니다.

    stats = tfdv.generate_statistics_from_tfrecord(data_location=path)

반환 된 값은 DatasetFeatureStatisticsList 프로토콜 버퍼입니다. 예제 노트북 에는 패싯 개요를 사용한 통계 시각화가 포함되어 있습니다.

    tfdv.visualize_statistics(stats)

통계 시각화 스크린 샷

이전 예에서는 데이터가 TFRecord 파일에 저장되어 있다고 가정합니다. TFDV는 CSV 입력 형식도 지원하며 다른 일반적인 형식에 대한 확장 성을 제공합니다. 여기 에서 사용 가능한 데이터 디코더를 찾을 수 있습니다. 또한 TFDV는 pandas DataFrame으로 표시되는 인 메모리 데이터를 사용하는 사용자에게 tfdv.generate_statistics_from_dataframe 유틸리티 기능을 제공합니다.

기본 데이터 통계 세트를 계산하는 것 외에도 TFDV는 의미 도메인 (예 : 이미지, 텍스트)에 대한 통계를 계산할 수도 있습니다. 의미 론적 도메인 통계 계산을 활성화하려면 enable_semantic_domain_stats 가 True로 설정된 tfdv.StatsOptions 객체를 tfdv.generate_statistics_from_tfrecord .

Google Cloud에서 실행

내부적으로 TFDV는 Apache Beam 의 데이터 병렬 처리 프레임 워크를 사용하여 대규모 데이터 세트에 대한 통계 계산을 확장합니다. TFDV와 더 깊이 통합하려는 애플리케이션의 경우 (예 : 데이터 생성 파이프 라인 끝에 통계 생성 연결, 사용자 지정 형식의 데이터에 대한 통계 생성) API는 통계 생성을 위해 Beam PTransform도 노출합니다.

GCP에서 TFDV를 실행하려면 TFDV 휠 파일을 다운로드하여 Dataflow 작업자에게 제공해야합니다. 다음과 같이 휠 파일을 현재 디렉토리에 다운로드합니다.

pip download tensorflow_data_validation \
  --no-deps \
  --platform manylinux2010_x86_64 \
  --only-binary=:all:

다음 스 니펫은 GCP에서 TFDV를 사용하는 예시를 보여줍니다.


import tensorflow_data_validation as tfdv
from apache_beam.options.pipeline_options import PipelineOptions, GoogleCloudOptions, StandardOptions, SetupOptions

PROJECT_ID = ''
JOB_NAME = ''
GCS_STAGING_LOCATION = ''
GCS_TMP_LOCATION = ''
GCS_DATA_LOCATION = ''
# GCS_STATS_OUTPUT_PATH is the file path to which to output the data statistics
# result.
GCS_STATS_OUTPUT_PATH = ''

PATH_TO_WHL_FILE = ''


# Create and set your PipelineOptions.
options = PipelineOptions()

# For Cloud execution, set the Cloud Platform project, job_name,
# staging location, temp_location and specify DataflowRunner.
google_cloud_options = options.view_as(GoogleCloudOptions)
google_cloud_options.project = PROJECT_ID
google_cloud_options.job_name = JOB_NAME
google_cloud_options.staging_location = GCS_STAGING_LOCATION
google_cloud_options.temp_location = GCS_TMP_LOCATION
options.view_as(StandardOptions).runner = 'DataflowRunner'

setup_options = options.view_as(SetupOptions)
# PATH_TO_WHL_FILE should point to the downloaded tfdv wheel file.
setup_options.extra_packages = [PATH_TO_WHL_FILE]

tfdv.generate_statistics_from_tfrecord(GCS_DATA_LOCATION,
                                       output_path=GCS_STATS_OUTPUT_PATH,
                                       pipeline_options=options)

이 경우, 생성 된 통계는 킬로그램으로 작성된 TFRecord 파일에 저장된 GCS_STATS_OUTPUT_PATH .

참고 tfdv.generate_statistics_... 에서 tfdv.generate_statistics_... 함수 (예 : tfdv.generate_statistics_from_tfrecord )를 호출 할 때 output_path 를 제공해야합니다. 없음을 지정하면 오류가 발생할 수 있습니다.

데이터에 대한 스키마 추론

스키마 는 데이터의 예상 속성을 설명합니다. 이러한 속성 중 일부는 다음과 같습니다.

  • 나타날 것으로 예상되는 기능
  • 그들의 유형
  • 각 예의 기능 값 수
  • 모든 예에서 각 기능의 존재
  • 기능의 예상 도메인.

간단히 말해 스키마는 "올바른"데이터에 대한 기대치를 설명하므로 데이터의 오류를 감지하는 데 사용할 수 있습니다 (아래 설명). 또한 동일한 스키마를 사용하여 데이터 변환을위한 Tensorflow Transform 을 설정할 수 있습니다. 스키마는 상당히 정적 일 것으로 예상됩니다. 예를 들어 여러 데이터 세트가 동일한 스키마를 따를 수있는 반면 통계 (위에서 설명)는 데이터 세트마다 다를 수 있습니다.

스키마 작성은 특히 많은 기능이있는 데이터 세트의 경우 지루한 작업이 될 수 있으므로 TFDV는 기술 통계를 기반으로 스키마의 초기 버전을 생성하는 방법을 제공합니다.

    schema = tfdv.infer_schema(stats)

일반적으로 TFDV는 스키마를 특정 데이터 세트에 과도하게 맞추는 것을 방지하기 위해 보수적 휴리스틱을 사용하여 통계에서 안정적인 데이터 속성을 추론합니다. 추론 된 스키마검토하고 필요에 따라 수정하여 TFDV의 휴리스틱이 놓쳤을 수있는 데이터에 대한 도메인 지식을 캡처하는 것이 좋습니다.

기본적으로 tfdv.infer_schema 를 추론하는 경우 각 필수 기능의 모양, value_count.min 동일 value_count.max 기능을 위해. infer_feature_shape 인수를 False로 설정하여 모양 추론을 비활성화합니다.

스키마 자체는 스키마 프로토콜 버퍼 로 저장되므로 표준 프로토콜 버퍼 API를 사용하여 업데이트 / 편집 할 수 있습니다. TFDV는 또한 이러한 업데이트를보다 쉽게 ​​수행 할 수있는 몇 가지 유틸리티 방법 을 제공합니다. 예를 들어, 스키마에 단일 값을 사용하는 필수 문자열 기능 payment_type 을 설명하는 다음 스탠자가 포함되어 있다고 가정하십시오.

feature {
  name: "payment_type"
  value_count {
    min: 1
    max: 1
  }
  type: BYTES
  domain: "payment_type"
  presence {
    min_fraction: 1.0
    min_count: 1
  }
}

기능이 예제의 50 % 이상에 채워 져야 함을 표시하려면 다음을 수행하십시오.

    tfdv.get_feature(schema, 'payment_type').presence.min_fraction = 0.5

예제 노트북 에는 스키마에 인코딩 된대로 각 기능과 주요 특성을 나열하는 간단한 스키마 시각화가 테이블로 포함되어 있습니다.

스키마 시각화 스크린 샷

데이터에서 오류 확인

스키마가 주어지면 데이터 세트가 스키마에 설정된 기대치를 준수하는지 또는 데이터 이상 이 있는지 여부를 확인할 수 있습니다. 데이터 세트의 통계를 스키마와 비교하여 (a) 전체 데이터 세트의 집계에서 오류를 확인하거나 (b) 예제별로 오류를 확인하여 데이터를 확인할 수 있습니다.

스키마에 대한 데이터 세트의 통계 일치

집계에서 오류를 확인하기 위해 TFDV는 데이터 세트의 통계를 스키마와 일치시키고 불일치를 표시합니다. 예를 들면 :

    # Assume that other_path points to another TFRecord file
    other_stats = tfdv.generate_statistics_from_tfrecord(data_location=other_path)
    anomalies = tfdv.validate_statistics(statistics=other_stats, schema=schema)

결과는 Anomalies 프로토콜 버퍼의 인스턴스이며 통계가 스키마와 일치하지 않는 오류를 설명합니다. 예를 들어, other_path 의 데이터에 스키마에 지정된 도메인 외부의 payment_type 기능 값이있는 예제가 포함되어 있다고 가정하십시오.

이로 인해 이상 현상이 발생합니다.

   payment_type  Unexpected string values  Examples contain values missing from the schema: Prcard (<1%).

기능 값의 1 % 미만의 통계에서 도메인 밖의 값이 발견되었음을 나타냅니다.

이것이 예상 된 경우 다음과 같이 스키마를 업데이트 할 수 있습니다.

   tfdv.get_domain(schema, 'payment_type').value.append('Prcard')

이상이 실제로 데이터 오류를 나타내는 경우 학습에 사용하기 전에 기본 데이터를 수정해야합니다.

이 모듈에서 감지 할 수있는 다양한 이상 유형이 여기 에 나열 됩니다 .

예제 노트북 에는 오류가 감지 된 기능과 각 오류에 대한 간단한 설명을 나열하는 표로 이상 징후에 대한 간단한 시각화가 포함되어 있습니다.

이상 징후 스크린 샷

예제별로 오류 확인

TFDV는 또한 데이터 세트 전체 통계를 스키마와 비교하는 대신 예제별로 데이터를 검증하는 옵션을 제공합니다. TFDV는 예제별로 데이터를 검증 한 다음 발견 된 비정상적인 예제에 대한 요약 통계를 생성하는 기능을 제공합니다. 예를 들면 :

   options = tfdv.StatsOptions(schema=schema)
   anomalous_example_stats = tfdv.validate_examples_in_tfrecord(
       data_location=input, stats_options=options)

anomalous_example_stats 것을 validate_examples_in_tfrecord 복귀가 인 DatasetFeatureStatisticsList의 각 세트는 특정 이상을 나타내는 예들의 집합으로 구성되는 프로토콜 버퍼. 이를 사용하여 주어진 이상을 나타내는 데이터 세트의 예 수와 해당 예의 특성을 확인할 수 있습니다.

스키마 환경

기본적으로 유효성 검사에서는 파이프 라인의 모든 데이터 세트가 단일 스키마를 준수한다고 가정합니다. 경우에 따라 약간의 스키마 변형을 도입해야합니다. 예를 들어 라벨로 사용되는 기능은 학습 중에 필요하고 유효성을 검사해야하지만 제공 중에 누락됩니다.

환경 을 사용하여 이러한 요구 사항을 표현할 수 있습니다. 특히 스키마의 기능은 default_environment, in_environment 및 not_in_environment를 사용하여 환경 세트와 연관 ​​될 수 있습니다.

예를 들어 기능이 학습에서 라벨로 사용되고 있지만 제공 데이터에서 누락 된 경우입니다. 환경을 지정하지 않으면 예외로 표시됩니다.

    serving_stats = tfdv.generate_statistics_from_tfrecord(data_location=serving_data_path)
    serving_anomalies = tfdv.validate_statistics(serving_stats, schema)

이상 항목 제공 스크린 샷

이 문제를 해결하려면 모든 기능의 기본 환경을 'TRAINING'및 'SERVING'으로 설정하고 '팁'기능을 SERVING 환경에서 제외해야합니다.

    # All features are by default in both TRAINING and SERVING environments.
    schema.default_environment.append('TRAINING')
    schema.default_environment.append('SERVING')

    # Specify that 'tips' feature is not in SERVING environment.
    tfdv.get_feature(schema, 'tips').not_in_environment.append('SERVING')

    serving_anomalies_with_env = tfdv.validate_statistics(
        serving_stats, schema, environment='SERVING')

데이터 왜곡 및 드리프트 확인

데이터 세트가 스키마에 설정된 기대치를 준수하는지 확인하는 것 외에도 TFDV는 다음을 감지하는 기능도 제공합니다.

  • 학습 데이터와 제공 데이터 간의 차이
  • 훈련 데이터의 다른 날 사이에 드리프트

TFDV는 스키마에 지정된 드리프트 / 스큐 비교기를 기반으로 여러 데이터 세트의 통계를 비교하여이 검사를 수행합니다. 예를 들어 학습 데이터 세트와 제공 데이터 세트 내에서 'payment_type'기능간에 차이가 있는지 확인하려면 다음을 사용하세요.

    # Assume we have already generated the statistics of training dataset, and
    # inferred a schema from it.
    serving_stats = tfdv.generate_statistics_from_tfrecord(data_location=serving_data_path)
    # Add a skew comparator to schema for 'payment_type' and set the threshold
    # of L-infinity norm for triggering skew anomaly to be 0.01.
    tfdv.get_feature(schema, 'payment_type').skew_comparator.infinity_norm.threshold = 0.01
    skew_anomalies = tfdv.validate_statistics(
        statistics=train_stats, schema=schema, serving_statistics=serving_stats)

참고 숫자 기능에 대한 스큐 감지 지정하려면 jensen_shannon_divergence 임계 값 대신의 infinity_norm 에서 임계 값 skew_comparator .

데이터 세트가 스키마에 설정된 기대치를 준수하는지 확인하는 것과 마찬가지로 결과는 또한 Anomalies 프로토콜 버퍼의 인스턴스이며 학습 데이터 세트와 제공 데이터 세트 사이의 모든 왜곡을 설명합니다. 예를 들어 제공 데이터에 값이 Cashpayement_type 기능이있는 훨씬 더 많은 예가 포함되어 있다고 가정하면 왜곡 이상이 발생합니다.

   payment_type  High L-infinity distance between serving and training  The L-infinity distance between serving and training is 0.0435984 (up to six significant digits), above the threshold 0.01. The feature value with maximum difference is: Cash

이상이 실제로 데이터 학습과 제공 사이의 편향을 나타내는 경우 모델 성능에 직접적인 영향을 미칠 수 있으므로 추가 조사가 필요합니다.

예제 노트북 에는 왜곡 기반 이상을 확인하는 간단한 예제가 포함되어 있습니다.

훈련 데이터의 서로 다른 날짜 간의 드리프트를 감지하는 것은 유사한 방식으로 수행 할 수 있습니다.

    # Assume we have already generated the statistics of training dataset for
    # day 2, and inferred a schema from it.
    train_day1_stats = tfdv.generate_statistics_from_tfrecord(data_location=train_day1_data_path)
    # Add a drift comparator to schema for 'payment_type' and set the threshold
    # of L-infinity norm for triggering drift anomaly to be 0.01.
    tfdv.get_feature(schema, 'payment_type').drift_comparator.infinity_norm.threshold = 0.01
    drift_anomalies = tfdv.validate_statistics(
        statistics=train_day2_stats, schema=schema, previous_statistics=train_day1_stats)

참고 숫자 기능에 대한 스큐 감지 지정하려면 jensen_shannon_divergence 임계 값 대신의 infinity_norm 에서 임계 값 drift_comparator .

사용자 지정 데이터 커넥터 작성

데이터 통계를 계산하기 위해 TFDV는 다양한 형식 (예 : TFRecordTFRecord , CSV 등)의 입력 데이터를 처리하는 몇 가지 편리한 방법 을 제공합니다. 데이터 형식이이 목록에없는 경우 입력 데이터를 읽기위한 사용자 지정 데이터 커넥터를 작성하고 데이터 통계 계산을 위해 TFDV 코어 API와 연결해야합니다.

데이터 통계 계산을위한 TFDV 핵심 API 는 입력 예제 배치의 PCollection (입력 예제 배치는 Arrow RecordBatch로 표시됨)을 취하고 단일 DatasetFeatureStatisticsList 프로토콜 버퍼를 포함하는 PCollection을 출력하는 Beam PTransform 입니다.

Arrow RecordBatch에서 입력 예제를 일괄 처리하는 사용자 지정 데이터 커넥터를 구현 한 후에는 데이터 통계를 계산하기 위해 tfdv.GenerateStatistics API와 연결해야합니다. 예를 들어 TFRecordtf.train.Example 가져 TFRecord . tfx_bslTFExampleRecord 데이터 커넥터를 제공하며, 아래는이를 tfdv.GenerateStatistics API와 연결하는 방법의 예입니다.

import tensorflow_data_validation as tfdv
from tfx_bsl.public import tfxio
import apache_beam as beam
from tensorflow_metadata.proto.v0 import statistics_pb2

DATA_LOCATION = ''
OUTPUT_LOCATION = ''

with beam.Pipeline() as p:
    _ = (
    p
    # 1. Read and decode the data with tfx_bsl.
    | 'TFXIORead' >> (
          tfxio.TFExampleRecord(
              file_pattern=[DATA_LOCATION],
              telemetry_descriptors=['my', 'tfdv']).BeamSource())
    # 2. Invoke TFDV `GenerateStatistics` API to compute the data statistics.
    | 'GenerateStatistics' >> tfdv.GenerateStatistics()
    # 3. Materialize the generated data statistics.
    | 'WriteStatsOutput' >> WriteStatisticsToTFRecord(OUTPUT_LOCATION))

데이터 조각에 대한 통계 계산

TFDV는 데이터 조각에 대한 통계를 계산하도록 구성 할 수 있습니다. 슬라이싱은 Arrow RecordBatch 를 받아 일련의 튜플 (slice key, record batch) 출력하는 슬라이싱 기능을 제공하여 활성화 할 수 있습니다. TFDV는 통계를 tfdv.StatsOptionstfdv.StatsOptions 일부로 제공 될 수있는 기능 값 기반 슬라이싱 함수생성 하는 쉬운 방법을 제공합니다.

슬라이싱이 활성화되면 출력 DatasetFeatureStatisticsList proto에는 각 조각에 대해 하나씩 여러 DatasetFeatureStatistics proto가 포함됩니다. 각 슬라이스는 DatasetFeatureStatistics proto에서 데이터 세트 이름으로 설정된 고유 한 이름으로 식별됩니다. 기본적으로 TFDV는 구성된 슬라이스 외에 전체 데이터 세트에 대한 통계를 계산합니다.

import tensorflow_data_validation as tfdv
from tensorflow_data_validation.utils import slicing_util

# Slice on country feature (i.e., every unique value of the feature).
slice_fn1 = slicing_util.get_feature_value_slicer(features={'country': None})

# Slice on the cross of country and state feature (i.e., every unique pair of
# values of the cross).
slice_fn2 = slicing_util.get_feature_value_slicer(
    features={'country': None, 'state': None})

# Slice on specific values of a feature.
slice_fn3 = slicing_util.get_feature_value_slicer(
    features={'age': [10, 50, 70]})

stats_options = tfdv.StatsOptions(
    slice_functions=[slice_fn1, slice_fn2, slice_fn3])