Tensorflow 데이터 검증 시작하기

컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

TFDV(Tensorflow Data Validation)는 학습 및 제공 데이터를 분석하여 다음을 수행할 수 있습니다.

핵심 API는 상단에 구축되고 노트북 컨텍스트에서 호출할 수 있는 편리한 메서드를 사용하여 각 기능을 지원합니다.

기술 데이터 통계 계산

TFDV는 존재하는 기능과 가치 분포의 형태 측면에서 데이터에 대한 빠른 개요를 제공하는 기술 통계 를 계산할 수 있습니다. 패싯 개요 와 같은 도구는 이러한 통계를 간결하게 시각화하여 쉽게 탐색할 수 있도록 합니다.

예를 들어 pathTFRecord 형식의 파일( tensorflow.Example 유형의 레코드를 포함)을 가리킨다고 가정합니다. 다음 스니펫은 TFDV를 사용한 통계 계산을 보여줍니다.

    stats = tfdv.generate_statistics_from_tfrecord(data_location=path)

반환된 값은 DatasetFeatureStatisticsList 프로토콜 버퍼입니다. 예제 노트북 에는 Facets Overview 를 사용한 통계 시각화가 포함되어 있습니다.

    tfdv.visualize_statistics(stats)

통계 시각화의 스크린샷

이전 예에서는 데이터가 TFRecord 파일에 저장되어 있다고 가정합니다. TFDV는 CSV 입력 형식도 지원하며 다른 일반적인 형식에 대한 확장성을 제공합니다. 여기 에서 사용 가능한 데이터 디코더를 찾을 수 있습니다. 또한 TFDV는 pandas DataFrame으로 표현되는 인메모리 데이터를 가진 사용자를 위해 tfdv.generate_statistics_from_dataframe 유틸리티 기능을 제공합니다.

데이터 통계의 기본 집합을 계산하는 것 외에도 TFDV는 의미 도메인(예: 이미지, 텍스트)에 대한 통계도 계산할 수 있습니다. 시맨틱 도메인 통계 계산을 활성화하려면 enable_semantic_domain_stats 가 True로 설정된 tfdv.StatsOptions 객체를 tfdv.generate_statistics_from_tfrecord 로 전달합니다.

Google Cloud에서 실행

내부적으로 TFDV는 Apache Beam 의 데이터 병렬 처리 프레임워크를 사용하여 대규모 데이터 세트에 대한 통계 계산을 확장합니다. TFDV와 더 깊이 통합하려는 애플리케이션(예: 데이터 생성 파이프라인 끝에 통계 생성 첨부, 사용자 지정 형식으로 데이터에 대한 통계 생성)을 위해 API는 통계 생성을 위한 Beam PTransform도 노출합니다.

Google Cloud에서 TFDV를 실행하려면 TFDV 휠 파일을 다운로드하여 Dataflow 작업자에게 제공해야 합니다. 다음과 같이 휠 파일을 현재 디렉토리에 다운로드합니다.

pip download tensorflow_data_validation \
  --no-deps \
  --platform manylinux2010_x86_64 \
  --only-binary=:all:

다음 스니펫은 Google Cloud에서 TFDV를 사용하는 예를 보여줍니다.


import tensorflow_data_validation as tfdv
from apache_beam.options.pipeline_options import PipelineOptions, GoogleCloudOptions, StandardOptions, SetupOptions

PROJECT_ID = ''
JOB_NAME = ''
GCS_STAGING_LOCATION = ''
GCS_TMP_LOCATION = ''
GCS_DATA_LOCATION = ''
# GCS_STATS_OUTPUT_PATH is the file path to which to output the data statistics
# result.
GCS_STATS_OUTPUT_PATH = ''

PATH_TO_WHL_FILE = ''


# Create and set your PipelineOptions.
options = PipelineOptions()

# For Cloud execution, set the Cloud Platform project, job_name,
# staging location, temp_location and specify DataflowRunner.
google_cloud_options = options.view_as(GoogleCloudOptions)
google_cloud_options.project = PROJECT_ID
google_cloud_options.job_name = JOB_NAME
google_cloud_options.staging_location = GCS_STAGING_LOCATION
google_cloud_options.temp_location = GCS_TMP_LOCATION
options.view_as(StandardOptions).runner = 'DataflowRunner'

setup_options = options.view_as(SetupOptions)
# PATH_TO_WHL_FILE should point to the downloaded tfdv wheel file.
setup_options.extra_packages = [PATH_TO_WHL_FILE]

tfdv.generate_statistics_from_tfrecord(GCS_DATA_LOCATION,
                                       output_path=GCS_STATS_OUTPUT_PATH,
                                       pipeline_options=options)

이 경우 생성된 통계 프로토타입은 GCS_STATS_OUTPUT_PATH 에 작성된 GCS_STATS_OUTPUT_PATH 파일에 저장됩니다.

참고 GCP에서 tfdv.generate_statistics_... 함수(예: tfdv.generate_statistics_from_tfrecord )를 호출할 때 output_path 를 제공해야 합니다. 없음을 지정하면 오류가 발생할 수 있습니다.

데이터에 대한 스키마 추론

스키마 는 데이터의 예상 속성을 설명합니다. 이러한 속성 중 일부는 다음과 같습니다.

  • 어떤 기능이 나타날 것으로 예상되는지
  • 그들의 유형
  • 각 예에서 기능에 대한 값의 수
  • 모든 예에서 각 기능의 존재
  • 기능의 예상 도메인.

간단히 말해서 스키마는 "올바른" 데이터에 대한 기대치를 설명하므로 데이터의 오류를 감지하는 데 사용할 수 있습니다(아래 설명 참조). 또한 동일한 스키마를 사용하여 데이터 변환을 위한 Tensorflow Transform 을 설정할 수 있습니다. 스키마는 상당히 정적일 것으로 예상됩니다. 예를 들어 여러 데이터세트가 동일한 스키마를 따를 수 있는 반면 통계(위에서 설명함)는 데이터세트마다 다를 수 있습니다.

스키마를 작성하는 것은 특히 기능이 많은 데이터 세트의 경우 지루한 작업이 될 수 있으므로 TFDV는 기술 통계를 기반으로 스키마의 초기 버전을 생성하는 방법을 제공합니다.

    schema = tfdv.infer_schema(stats)

일반적으로 TFDV는 스키마를 특정 데이터 세트에 과적합하는 것을 방지하기 위해 보수적 휴리스틱을 사용하여 통계에서 안정적인 데이터 속성을 추론합니다. 추론된 스키마를 검토하고 필요에 따라 수정하여 TFDV의 휴리스틱이 놓쳤을 수 있는 데이터에 대한 도메인 지식을 캡처하는 것이 좋습니다.

기본적으로 tfdv.infer_schemavalue_count.max 이 기능의 value_count.min 와 같으면 필요한 각 기능의 모양을 유추합니다. 모양 추론을 비활성화하려면 infer_feature_shape 인수를 False로 설정합니다.

스키마 자체는 스키마 프로토콜 버퍼 로 저장되므로 표준 프로토콜 버퍼 API를 사용하여 업데이트/편집할 수 있습니다. TFDV는 이러한 업데이트를 보다 쉽게 ​​수행할 수 있는 몇 가지 유틸리티 방법 도 제공합니다. 예를 들어 스키마에 단일 값을 사용하는 필수 문자열 기능 payment_type 을 설명하는 다음 스탠자가 포함되어 있다고 가정합니다.

feature {
  name: "payment_type"
  value_count {
    min: 1
    max: 1
  }
  type: BYTES
  domain: "payment_type"
  presence {
    min_fraction: 1.0
    min_count: 1
  }
}

기능이 예제의 최소 50%에 채워져야 함을 표시하려면 다음을 수행합니다.

    tfdv.get_feature(schema, 'payment_type').presence.min_fraction = 0.5

예제 노트북 은 스키마에 인코딩된 각 기능과 주요 특성을 나열하는 테이블로 스키마의 간단한 시각화를 포함합니다.

스키마 시각화의 스크린샷

데이터 오류 확인

스키마가 주어지면 데이터 세트가 스키마에 설정된 기대치를 준수하는지 또는 데이터 이상 이 존재하는지 확인할 수 있습니다. (a) 스키마에 대한 데이터 세트의 통계를 일치시켜 전체 데이터 세트의 집계에서 또는 (b) 예제별로 오류를 확인하여 데이터의 오류를 확인할 수 있습니다.

스키마에 대한 데이터 세트의 통계 일치

집계에서 오류를 확인하기 위해 TFDV는 스키마와 데이터 세트의 통계를 일치시키고 불일치를 표시합니다. 예를 들어:

    # Assume that other_path points to another TFRecord file
    other_stats = tfdv.generate_statistics_from_tfrecord(data_location=other_path)
    anomalies = tfdv.validate_statistics(statistics=other_stats, schema=schema)

결과는 Anomalies 프로토콜 버퍼의 인스턴스이며 통계가 스키마와 일치하지 않는 모든 오류를 설명합니다. 예를 들어 other_path 의 데이터에 스키마에 지정된 도메인 외부의 payment_type 기능에 대한 값이 있는 예제가 포함되어 있다고 가정합니다.

이것은 이상을 일으킨다.

   payment_type  Unexpected string values  Examples contain values missing from the schema: Prcard (<1%).

기능 값의 < 1%에서 통계에서 도메인 값을 벗어났음을 나타냅니다.

이것이 예상된 경우 스키마를 다음과 같이 업데이트할 수 있습니다.

   tfdv.get_domain(schema, 'payment_type').value.append('Prcard')

이상이 실제로 데이터 오류를 나타내는 경우 교육에 사용하기 전에 기본 데이터를 수정해야 합니다.

이 모듈에서 감지할 수 있는 다양한 이상 유형이 여기 에 나열됩니다.

예제 노트북 에는 오류가 감지된 기능과 각 오류에 대한 간략한 설명이 나열된 테이블로 이상 현상에 대한 간단한 시각화가 포함되어 있습니다.

이상 현상의 스크린샷

예제별로 오류 확인

TFDV는 또한 스키마에 대해 데이터 세트 전체 통계를 비교하는 대신 예제별로 데이터를 검증하는 옵션을 제공합니다. TFDV는 예제별로 데이터를 검증한 다음 발견된 변칙 예제에 대한 요약 통계를 생성하는 기능을 제공합니다. 예를 들어:

   options = tfdv.StatsOptions(schema=schema)
   anomalous_example_stats = tfdv.validate_examples_in_tfrecord(
       data_location=input, stats_options=options)

validate_examples_in_tfrecord 가 반환하는 anomalous_example_statsDatasetFeatureStatisticsList 프로토콜 버퍼로, 여기에서 각 데이터 세트는 특정 이상을 나타내는 예제 세트로 구성됩니다. 이를 사용하여 데이터세트에서 주어진 이상을 나타내는 예의 수와 해당 예의 특성을 결정할 수 있습니다.

스키마 환경

기본적으로 유효성 검사에서는 파이프라인의 모든 데이터 세트가 단일 스키마를 준수한다고 가정합니다. 어떤 경우에는 약간의 스키마 변형을 도입하는 것이 필요합니다. 예를 들어 레이블로 사용되는 기능은 학습 중에 필요하지만(검증되어야 함) 제공하는 동안 누락됩니다.

환경 은 이러한 요구 사항을 표현하는 데 사용할 수 있습니다. 특히 스키마의 기능은 default_environment, in_environment 및 not_in_environment를 사용하여 환경 세트와 연관될 수 있습니다.

예를 들어, 기능이 교육에서 레이블로 사용되지만 제공 데이터에서 누락된 경우입니다. 환경을 지정하지 않으면 이상으로 표시됩니다.

    serving_stats = tfdv.generate_statistics_from_tfrecord(data_location=serving_data_path)
    serving_anomalies = tfdv.validate_statistics(serving_stats, schema)

이상 서비스 제공 스크린샷

이를 해결하기 위해서는 모든 기능의 기본 환경을 'TRAINING'과 'SERVING'으로 모두 설정하고 'tips' 기능을 SERVING 환경에서 제외해야 합니다.

    # All features are by default in both TRAINING and SERVING environments.
    schema.default_environment.append('TRAINING')
    schema.default_environment.append('SERVING')

    # Specify that 'tips' feature is not in SERVING environment.
    tfdv.get_feature(schema, 'tips').not_in_environment.append('SERVING')

    serving_anomalies_with_env = tfdv.validate_statistics(
        serving_stats, schema, environment='SERVING')

데이터 스큐 및 드리프트 확인

데이터 세트가 스키마에 설정된 기대치를 준수하는지 확인하는 것 외에도 TFDV는 다음을 감지하는 기능도 제공합니다.

  • 학습 데이터와 데이터 제공 사이의 왜곡
  • 훈련 데이터의 다른 날짜 사이의 드리프트

TFDV는 스키마에 지정된 드리프트/스큐 비교기를 기반으로 서로 다른 데이터 세트의 통계를 비교하여 이 검사를 수행합니다. 예를 들어 학습 데이터 세트와 제공 데이터 세트 내의 'payment_type' 기능 사이에 왜곡이 있는지 확인하려면 다음을 수행합니다.

    # Assume we have already generated the statistics of training dataset, and
    # inferred a schema from it.
    serving_stats = tfdv.generate_statistics_from_tfrecord(data_location=serving_data_path)
    # Add a skew comparator to schema for 'payment_type' and set the threshold
    # of L-infinity norm for triggering skew anomaly to be 0.01.
    tfdv.get_feature(schema, 'payment_type').skew_comparator.infinity_norm.threshold = 0.01
    skew_anomalies = tfdv.validate_statistics(
        statistics=train_stats, schema=schema, serving_statistics=serving_stats)

참고 L-무한대 표준은 범주형 기능에 대한 왜곡만 감지합니다. infinity_norm 임계값을 지정하는 대신, skew_comparator 에서 jensen_shannon_divergence 임계값을 지정하면 숫자 및 범주형 기능 모두에 대한 왜곡을 감지합니다.

데이터 세트가 스키마에 설정된 기대치를 준수하는지 여부를 확인하는 것과 동일하게 결과는 Anomalies 프로토콜 버퍼의 인스턴스이기도 하며 훈련 데이터 세트와 제공 데이터 세트 사이의 왜곡을 설명합니다. 예를 들어, 제공 데이터에 값이 Cashpayement_type 기능이 있는 훨씬 더 많은 예가 포함되어 있다고 가정하면, 이는 왜곡 이상을 생성합니다.

   payment_type  High L-infinity distance between serving and training  The L-infinity distance between serving and training is 0.0435984 (up to six significant digits), above the threshold 0.01. The feature value with maximum difference is: Cash

이상이 실제로 훈련 데이터와 제공 데이터 사이의 왜곡을 나타내는 경우 모델 성능에 직접적인 영향을 미칠 수 있으므로 추가 조사가 필요합니다.

예제 노트북 에는 왜곡 기반 이상을 확인하는 간단한 예제가 포함되어 있습니다.

훈련 데이터의 다른 날짜 사이의 드리프트 감지는 유사한 방식으로 수행할 수 있습니다.

    # Assume we have already generated the statistics of training dataset for
    # day 2, and inferred a schema from it.
    train_day1_stats = tfdv.generate_statistics_from_tfrecord(data_location=train_day1_data_path)
    # Add a drift comparator to schema for 'payment_type' and set the threshold
    # of L-infinity norm for triggering drift anomaly to be 0.01.
    tfdv.get_feature(schema, 'payment_type').drift_comparator.infinity_norm.threshold = 0.01
    drift_anomalies = tfdv.validate_statistics(
        statistics=train_day2_stats, schema=schema, previous_statistics=train_day1_stats)

참고 L-무한대 표준은 범주형 기능에 대한 왜곡만 감지합니다. infinity_norm 임계값을 지정하는 대신, skew_comparator 에서 jensen_shannon_divergence 임계값을 지정하면 숫자 및 범주형 기능 모두에 대한 왜곡을 감지합니다.

사용자 지정 데이터 커넥터 작성

데이터 통계를 계산하기 위해 TFDV는 다양한 형식(예: TFRecordTFRecord , CSV 등)의 입력 데이터를 처리하기 위한 몇 가지 편리한 방법 을 제공합니다. 데이터 형식이 이 목록에 없으면 입력 데이터를 읽기 위한 사용자 지정 데이터 커넥터를 작성하고 데이터 통계 계산을 위해 TFDV 코어 API와 연결해야 합니다.

데이터 통계 계산을 위한 TFDV 핵심 API 는 입력 예제 배치의 PCollection(입력 예제 배치는 Arrow RecordBatch로 표시됨)을 취하고 단일 DatasetFeatureStatisticsList 프로토콜 버퍼를 포함하는 PCollection을 출력하는 Beam PTransform 입니다.

Arrow RecordBatch에서 입력 예제를 일괄 처리하는 사용자 지정 데이터 커넥터를 구현한 후에는 데이터 통계를 계산하기 위해 tfdv.GenerateStatistics API와 연결해야 합니다. TFRecordtf.train.Example 를 예로 들어 보겠습니다. tfx_bslTFExampleRecord 데이터 커넥터를 제공하며, 아래는 tfdv.GenerateStatistics API와 연결하는 예시이다.

import tensorflow_data_validation as tfdv
from tfx_bsl.public import tfxio
import apache_beam as beam
from tensorflow_metadata.proto.v0 import statistics_pb2

DATA_LOCATION = ''
OUTPUT_LOCATION = ''

with beam.Pipeline() as p:
    _ = (
    p
    # 1. Read and decode the data with tfx_bsl.
    | 'TFXIORead' >> (
          tfxio.TFExampleRecord(
              file_pattern=[DATA_LOCATION],
              telemetry_descriptors=['my', 'tfdv']).BeamSource())
    # 2. Invoke TFDV `GenerateStatistics` API to compute the data statistics.
    | 'GenerateStatistics' >> tfdv.GenerateStatistics()
    # 3. Materialize the generated data statistics.
    | 'WriteStatsOutput' >> WriteStatisticsToTFRecord(OUTPUT_LOCATION))

데이터 조각에 대한 통계 계산

TFDV는 데이터 조각에 대한 통계를 계산하도록 구성할 수 있습니다. 슬라이싱은 Arrow RecordBatch 를 받아서 형식의 튜플 시퀀스 (slice key, record batch) 를 출력하는 슬라이싱 기능을 제공하여 활성화할 수 있습니다. TFDV는 통계를 계산할 때 tfdv.StatsOptions 의 일부로 제공될 수 있는 기능 값 기반 슬라이싱 기능을 생성 하는 쉬운 방법을 제공합니다.

슬라이싱이 활성화되면 출력 DatasetFeatureStatisticsList proto에는 각 슬라이스에 하나씩 여러 DatasetFeatureStatistics proto가 포함됩니다. 각 슬라이스는 DatasetFeatureStatistics proto 에서 데이터세트 이름으로 설정된 고유한 이름으로 식별됩니다. 기본적으로 TFDV는 구성된 슬라이스 외에 전체 데이터 세트에 대한 통계를 계산합니다.

import tensorflow_data_validation as tfdv
from tensorflow_data_validation.utils import slicing_util

# Slice on country feature (i.e., every unique value of the feature).
slice_fn1 = slicing_util.get_feature_value_slicer(features={'country': None})

# Slice on the cross of country and state feature (i.e., every unique pair of
# values of the cross).
slice_fn2 = slicing_util.get_feature_value_slicer(
    features={'country': None, 'state': None})

# Slice on specific values of a feature.
slice_fn3 = slicing_util.get_feature_value_slicer(
    features={'age': [10, 50, 70]})

stats_options = tfdv.StatsOptions(
    slice_functions=[slice_fn1, slice_fn2, slice_fn3])