TFDV는 스키마와 통계 프로토콜을 비교하여 이상을 확인합니다. 다음 차트에는 TFDV가 감지할 수 있는 이상 유형, 각 이상 유형을 감지하는 데 사용되는 스키마 및 통계 필드, 각 이상 유형이 감지되는 조건이 나열되어 있습니다.
BOOL_TYPE_BIG_INT
- 스키마 필드:
-
feature.bool_domain
-
- 통계 필드:
-
features.num_stats.max
-
features.type
-
- 탐지 조건:
-
feature.bool_domain
이 지정되고 -
features.type
==INT
및 -
features.num_stats.max
> 1
-
- 스키마 필드:
BOOL_TYPE_BYTES_NOT_INT
- TFDV에서 감지되지 않는 이상 유형
BOOL_TYPE_BYTES_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
BOOL_TYPE_FLOAT_NOT_INT
- TFDV에서 감지되지 않는 이상 유형
BOOL_TYPE_FLOAT_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
BOOL_TYPE_INT_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
BOOL_TYPE_SMALL_INT
- 스키마 필드:
-
feature.bool_domain
-
- 통계 필드:
-
features.num_stats.min
-
features.type
-
- 탐지 조건:
-
features.type
==INT
및 -
feature.bool_domain
이 지정되고 -
features.num_stats.min
< 0
-
- 스키마 필드:
BOOL_TYPE_STRING_NOT_INT
- TFDV에서 감지되지 않는 이상 유형
BOOL_TYPE_UNEXPECTED_STRING
- 스키마 필드:
-
feature.bool_domain
-
- 통계 필드:
-
features.string_stats.rank_histogram
*
-
- 탐지 조건:
-
features.type
==STRING
및 -
feature.bool_domain
이 지정되고 -
rank_histogram
*에서 하나 이상의 값이feature.bool_domain.true_value
또는feature.bool_domain.false_value
가 아닙니다.
-
- 스키마 필드:
BOOL_TYPE_UNEXPECTED_FLOAT
- 스키마 필드:
-
feature.bool_domain
-
- 통계 필드:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- 탐지 조건:
-
features.type
==FLOAT
및 -
feature.bool_domain
이 지정되고 다음 중 하나를 수행합니다.- (
features.num_stats.min
!= 0 또는features.num_stats.min
!= 1) 또는 - (
features.num_stats.max
!= 0 또는features.num_stats.max
!= 1) 또는 -
features.num_stats.histograms.num_nan
> 0 또는 - (
features.num_stats.histograms.buckets.low_value
!= 0 또는features.num_stats.histograms.buckets.high_value
!= 1) 및features.num_stats.histograms.buckets.sample_count
> 0
- (
-
- 스키마 필드:
BOOL_TYPE_INVALID_CONFIG
- 스키마 필드:
-
feature.bool_domain
-
- 통계 필드:
-
features.type
-
- 탐지 조건:
-
features.type
==INT
또는FLOAT
인 경우,-
feature.bool_domain
이 지정되고 -
feature.bool_domain.true_value
또는feature.bool_domain.false_value
가 지정되거나
-
-
features.type
==STRING
인 경우,-
feature.bool_domain
이 지정되고 -
feature.bool_domain.true_value
및feature.bool_domain.false_value
지정되지 않았습니다.
-
-
- 스키마 필드:
ENUM_TYPE_BYTES_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
ENUM_TYPE_FLOAT_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
ENUM_TYPE_INT_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
ENUM_TYPE_INVALID_UTF8
- 통계 필드:
-
features.string_stats.invalid_utf8_count
-
- 탐지 조건:
-
invalid_utf8_count
> 0
-
- 통계 필드:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- 스키마 필드:
-
string_domain
및feature.domain
; 또는feature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- 통계 필드:
-
features.string_stats.rank_histogram
*
-
- 탐지 조건:
- (도메인에 없는
rank_histogram
의 값 수 * 총 값 수) > (1 -feature.distribution_constraints.min_domain_mass
) 또는 -
feature.distribution_constraints.min_domain_mass
== 1.0이고 히스토그램에는 도메인에 없는 값이 있습니다.
- (도메인에 없는
- 스키마 필드:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- 스키마 필드:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- 통계 필드:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- 탐지 조건:
-
feature.value_count.max
가 지정된 경우-
features.common_stats.max_num_values
>feature.value_count.max
; 또는
-
-
feature.value_counts
가 지정된 경우-
feature.value_counts.value_count.max
< 주어진 중첩 수준에서features.common_stats.presence_and_valency_stats.max_num_values
-
-
- 스키마 필드:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- 스키마 필드:
-
feature.presence.min_fraction
-
- 통계 필드:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- 탐지 조건:
-
feature.presence.min_fraction
이 지정되고 (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
또는 -
feature.presence.min_fraction
== 1.0 및common_stats.num_missing
!= 0
-
- 스키마 필드:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- 스키마 필드:
-
feature.presence.min_count
-
- 통계 필드:
-
features.common_stats.num_non_missing
*
-
- 탐지 조건:
-
feature.presence.min_count
가 지정되고 다음 중 하나-
features.common_stats.num_non_missing
* == 0 또는 -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- 스키마 필드:
FEATURE_TYPE_LOW_NUMBER_VALUES
- 스키마 필드:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- 통계 필드:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- 탐지 조건:
-
feature.value_count.min
이 지정된 경우-
features.common_stats.min_num_values
<feature.value_count.min
; 또는
-
-
feature.value_counts
가 지정된 경우-
features.common_stats.presence_and_valency_stats.min_num_values
< 주어진 중첩 수준에서feature.value_counts.value_count.min
-
-
- 스키마 필드:
FEATURE_TYPE_NOT_PRESENT
- 스키마 필드:
-
feature.in_environment
또는feature.not_in_environment
또는schema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
또는feature.presence.min_fraction
-
- 통계 필드:
-
features.common_stats.num_non_missing
*
-
- 탐지 조건:
-
feature.lifecycle_stage
[PLANNED
,ALPHA
,DEBUG
,DEPRECATED
]에 없고 -
common_stats.num_non_missing
* == 0 및 - (
feature.presence.min_count
> 0 또는feature.presence.min_fraction
> 0) 및-
feature.in_environment
== 현재 환경 또는 -
feature.not_in_environment
!= 현재 환경 또는 -
schema.default_environment
!= 현재 환경
-
-
- 스키마 필드:
FEATURE_TYPE_NO_VALUES
- TFDV에서 감지되지 않는 이상 유형
FEATURE_TYPE_UNEXPECTED_REPEATED
- TFDV에서 감지되지 않는 이상 유형
FEATURE_TYPE_HIGH_UNIQUE
- 스키마 필드:
-
feature.unique_constraints.max
-
- 통계 필드:
-
features.string_stats.unique
-
- 탐지 조건:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- 스키마 필드:
FEATURE_TYPE_LOW_UNIQUE
- 스키마 필드:
-
feature.unique_constraints.min
-
- 통계 필드:
-
features.string_stats.unique
-
- 탐지 조건:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- 스키마 필드:
FEATURE_TYPE_NO_UNIQUE
- 스키마 필드:
-
feature.unique_constraints
-
- 통계 필드:
-
features.string_stats.unique
-
- 탐지 조건:
-
feature.unique_constraints
가 지정되었지만features.string_stats.unique
없습니다(특징이 문자열 또는 범주형이 아닌 경우).
-
- 스키마 필드:
FLOAT_TYPE_BIG_FLOAT
- 스키마 필드:
-
feature.float_domain.max
-
- 통계 필드:
-
features.type
-
features.num_stats.max
또는features.string_stats.rank_histogram
-
- 탐지 조건:
-
features.type
==FLOAT
인 경우,-
features.num_stats.max
>feature.float_domain.max
; 또는
-
-
features.type
==BYTES
또는STRING
인 경우,-
features.string_stats.rank_histogram
의 최대값(float으로 변환할 때) >feature.float_domain.max
-
-
- 스키마 필드:
FLOAT_TYPE_NOT_FLOAT
- TFDV에서 감지되지 않는 이상 유형
FLOAT_TYPE_SMALL_FLOAT
- 스키마 필드:
-
feature.float_domain.min
-
- 통계 필드:
-
features.type
-
features.num_stats.min
또는features.string_stats.rank_histogram
-
- 탐지 조건:
-
features.type
==FLOAT
인 경우,-
features.num_stats.min
<feature.float_domain.min
; 또는
-
-
features.type
==BYTES
또는STRING
인 경우,-
features.string_stats.rank_histogram
의 최소값(float으로 변환할 때) <feature.float_domain.min
-
-
- 스키마 필드:
FLOAT_TYPE_STRING_NOT_FLOAT
- 스키마 필드:
-
feature.float_domain
-
- 통계 필드:
-
features.type
-
features.string_stats.rank_histogram
-
- 탐지 조건:
-
features.type
==BYTES
또는STRING
및 -
features.string_stats.rank_histogram
float로 변환할 수 없는 값이 하나 이상 있습니다.
-
- 스키마 필드:
FLOAT_TYPE_NON_STRING
- TFDV에서 감지되지 않는 이상 유형
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- TFDV에서 감지되지 않는 이상 유형
FLOAT_TYPE_HAS_NAN
- 스키마 필드:
-
feature.float_domain.disallow_nan
-
- 통계 필드:
-
features.type
-
features.num_stats.histograms.num_nan
-
- 탐지 조건:
-
float_domain.disallow_nan
은 참이고 -
features.num_stats.histograms.num_nan
> 0
-
- 스키마 필드:
FLOAT_TYPE_HAS_INF
- 스키마 필드:
-
feature.float_domain.disallow_inf
-
- 통계 필드:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- 탐지 조건:
-
features.type
==FLOAT
-
float_domain.disallow_inf
는 true이고 다음 중 하나입니다.-
features.num_stats.min
==inf/-inf
또는 -
features.num_stats.max
==inf/-inf
-
-
- 스키마 필드:
INT_TYPE_BIG_INT
- 스키마 필드:
-
feature.int_domain.max
-
- 통계 필드:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- 탐지 조건:
-
features.type
==INT
인 경우,-
features.num_stats.max
>feature.int_domain.max
; 또는
-
-
features.type
==BYTES
또는STRING
인 경우,-
features.string_stats.rank_histogram
의 최대값(int로 변환할 때) >feature.int_domain.max
-
-
- 스키마 필드:
INT_TYPE_INT_EXPECTED
- TFDV에서 감지되지 않는 이상 유형
INT_TYPE_NOT_INT_STRING
- 스키마 필드:
-
feature.int_domain
-
- 통계 필드:
-
features.type
-
features.string_stats.rank_histogram
-
- 탐지 조건:
-
features.type
==BYTES
또는STRING
및 -
features.string_stats.rank_histogram
int로 변환할 수 없는 값이 하나 이상 있습니다.
-
- 스키마 필드:
INT_TYPE_NOT_STRING
- TFDV에서 감지되지 않는 이상 유형
INT_TYPE_SMALL_INT
- 스키마 필드:
-
feature.int_domain.min
-
- 통계 필드:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- 탐지 조건:
-
features.type
==INT
인 경우,-
features.num_stats.min
<feature.int_domain.min
; 또는
-
-
features.type
==BYTES
또는STRING
인 경우,-
features.string_stats.rank_histogram
의 최소값(int로 변환 시) <feature.int_domain.min
-
-
- 스키마 필드:
INT_TYPE_STRING_EXPECTED
- TFDV에서 감지되지 않는 이상 유형
INT_TYPE_UNKNOWN_TYPE_NUMBER
- TFDV에서 감지되지 않는 이상 유형
LOW_SUPPORTED_IMAGE_FRACTION
- 스키마 필드:
-
feature.image_domain.minimum_supported_image_fraction
-
- 통계 필드:
- 이름이
image_format_histogram
인 custom_stats에 대한features.custom_stats.rank_histogram
image_format_histogram이 생성되고 이 검증이 수행되려면 시맨틱 도메인 통계가 활성화되어야 합니다. 시맨틱 도메인 통계는 기본적으로 생성되지 않습니다.
- 이름이
- 탐지 조건:
- 모든 이미지 유형에 대한 Tensorflow 이미지 유형이 지원되는 값의 비율은
feature.image_domain.minimum_supported_image_fraction
미만입니다.
- 모든 이미지 유형에 대한 Tensorflow 이미지 유형이 지원되는 값의 비율은
- 스키마 필드:
SCHEMA_MISSING_COLUMN
- 스키마 필드:
-
feature.in_environment
또는feature.not_in_environment
또는schema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
또는feature.presence.min_fraction
-
- 탐지 조건:
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
또는DEPRECATED
및 -
feature.presence.min_count
> 0 또는feature.presence.min_fraction
> 0 및 -
feature.in_environment
== 현재 환경 또는feature.not_in_environment
!= 현재 환경 또는schema.default_environment
!= 현재 환경 및 - 지정된 이름/경로를 가진 기능이 통계 proto에 없습니다.
-
- 스키마 필드:
SCHEMA_NEW_COLUMN
- 탐지 조건:
- 통계 proto에는 기능이 있지만 스키마 proto에는 이름/경로가 있는 기능이 없습니다.
- 탐지 조건:
SCHEMA_TRAINING_SERVING_SKEW
- TFDV에서 감지되지 않는 이상 유형
STRING_TYPE_NOW_FLOAT
- TFDV에서 감지되지 않는 이상 유형
STRING_TYPE_NOW_INT
- TFDV에서 감지되지 않는 이상 유형
COMPARATOR_CONTROL_DATA_MISSING
- 스키마 필드:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- 탐지 조건:
- 제어 통계 proto(예: 왜곡에 대한 제공 통계 또는 드리프트에 대한 이전 통계)를 사용할 수 있지만 지정된 기능을 포함하지 않습니다.
- 스키마 필드:
COMPARATOR_TREATMENT_DATA_MISSING
- TFDV에서 감지되지 않는 이상 유형
COMPARATOR_L_INFTY_HIGH
- 스키마 필드:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- 통계 필드:
-
features.string_stats.rank_histogram
*
-
- 탐지 조건:
- 제어 통계(예: 편향에 대한 제공 통계 또는 드리프트에 대한 이전 통계)의
features.string_stats.rank_histogram
*에서 정규화된 카운트와 처리 통계(즉 왜곡 또는 드리프트에 대한 현재 통계) >feature.skew_comparator.infinity_norm.threshold
또는feature.drift_comparator.infinity_norm.threshold
- 제어 통계(예: 편향에 대한 제공 통계 또는 드리프트에 대한 이전 통계)의
- 스키마 필드:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- 스키마 필드:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- 통계 필드:
-
features.string_stats.rank_histogram
-
- 탐지 조건:
- 제어 통계(예: 편향에 대한 서빙 통계 또는 드리프트에 대한 이전 통계) 및 처리 통계(즉, 편향에 대한 교육 통계 또는 드리프트에 대한 현재 통계)의
features.string_stats.rank_histogram
값 카운트의 정규화된 절대 카운트 차이가 초과되었습니다. feature.skew_comparator.normalized_abs_difference.threshold 또는 feature.drift_comparator.normalized_abs_difference.threshold. 카운트 차이는 두 조건의 총 카운트로 정규화됩니다.
- 제어 통계(예: 편향에 대한 서빙 통계 또는 드리프트에 대한 이전 통계) 및 처리 통계(즉, 편향에 대한 교육 통계 또는 드리프트에 대한 현재 통계)의
- 스키마 필드:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- 스키마 필드:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- 통계 필드:
-
STANDARD
유형의features.num_stats.histograms
-
features.string_stats.rank_histogram
*
-
- 탐지 조건:
- 제어 통계(예: 왜곡에 대한 서빙 통계 또는 드리프트에 대한 이전 통계)와 처리 통계(예: 왜곡에 대한 교육 통계 또는 드리프트에 대한 현재 통계) >
feature.skew_comparator.jensen_shannon_divergence.threshold
또는feature.drift_comparator.jensen_shannon_divergence.threshold
. 대략적인 Jensen-Shannon 발산은features.num_stats.histograms
표준 히스토그램과features.string_stats.rank_histogram
*의 정규화된 샘플 수를 기반으로 계산됩니다.
- 제어 통계(예: 왜곡에 대한 서빙 통계 또는 드리프트에 대한 이전 통계)와 처리 통계(예: 왜곡에 대한 교육 통계 또는 드리프트에 대한 현재 통계) >
- 스키마 필드:
NO_DATA_IN_SPAN
- TFDV에서 감지되지 않는 이상 유형
SPARSE_FEATURE_MISSING_VALUE
- 스키마 필드:
-
sparse_feature.value_feature
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- 이름이 "missing_value"인
features.custom_stats
및 -
missing_value
맞춤 통계 != 0
- 이름이 "missing_value"인
- 스키마 필드:
SPARSE_FEATURE_MISSING_INDEX
- 스키마 필드:
-
sparse_feature.index_feature
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- 이름이 "missing_index"인
features.custom_stats
및 -
missing_index
커스텀 통계는 모든 값을 포함합니다!= 0
- 이름이 "missing_index"인
- 스키마 필드:
SPARSE_FEATURE_LENGTH_MISMATCH
- 스키마 필드:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- 이름이 "min_length_diff" 또는 "max_length_diff"인
features.custom_stats
-
min_length_diff
또는max_length_diff
사용자 지정 통계에는 모든 값이 포함됩니다!= 0
- 이름이 "min_length_diff" 또는 "max_length_diff"인
- 스키마 필드:
SPARSE_FEATURE_NAME_COLLISION
- 스키마 필드:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- 탐지 조건:
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
또는DEPRECATED
, 그리고 -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
또는DEPRECATED
, 그리고 -
sparse_feature.name
==feature.name
-
- 스키마 필드:
SEMANTIC_DOMAIN_UPDATE
- 스키마 필드:
-
feature.domain_info
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- 이름이 "domain_info"인
features.custom_stats
및 -
feature.domain_info
스키마에 아직 설정되지 않았으며 - 기능에 대한 단일
domain_info
맞춤 통계가 있습니다.
- 이름이 "domain_info"인
- 스키마 필드:
COMPARATOR_LOW_NUM_EXAMPLES
- 스키마 필드:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- 통계 필드:
-
num_examples
*
-
- 탐지 조건:
-
num_examples
* > 0 및 - 이전 통계 프로토콜을 사용할 수 있으며
-
num_examples
* / 이전 통계num_examples
* < 비교기min_fraction_threshold
-
- 스키마 필드:
COMPARATOR_HIGH_NUM_EXAMPLES
- 스키마 필드:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- 통계 필드:
-
num_examples
*
-
- 탐지 조건:
-
num_examples
* > 0 및 - 이전 통계 프로토콜을 사용할 수 있으며
-
num_examples
* / 이전 통계num_examples
* > 비교기max_fraction_threshold
-
- 스키마 필드:
DATASET_LOW_NUM_EXAMPLES
- 스키마 필드:
-
schema.dataset_constraints.min_examples_count
-
- 통계 필드:
-
num_examples
*
-
- 탐지 조건:
-
num_examples
* <dataset_constraints.min_examples_count
-
- 스키마 필드:
DATASET_HIGH_NUM_EXAMPLES
- 스키마 필드:
-
schema.dataset_constraints.max_examples_count
-
- 통계 필드:
-
num_examples
*
-
- 탐지 조건:
-
num_examples
* >dataset_constraints.max_examples_count
-
- 스키마 필드:
WEIGHTED_FEATURE_NAME_COLLISION
- 스키마 필드:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- 탐지 조건:
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
또는DEPRECATED
및 둘 중 하나-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
또는DEPRECATED
인 경우,-
weighted_feature.name
==feature.name
; 또는
-
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
또는DEPRECATED
이면,-
weighted_feature.name
==sparse_feature.name
-
-
-
- 스키마 필드:
WEIGHTED_FEATURE_MISSING_VALUE
- 스키마 필드:
-
weighted_feature.feature
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- 이름이 "missing_value"인
features.custom_stats
및 -
missing_value
맞춤 통계 != 0
- 이름이 "missing_value"인
- 스키마 필드:
WEIGHTED_FEATURE_MISSING_WEIGHT
- 스키마 필드:
-
weighted_feature.weight_feature
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- 이름이 "missing_weight"인
features.custom_stats
및 -
missing_weight
맞춤 통계 != 0
- 이름이 "missing_weight"인
- 스키마 필드:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- 스키마 필드:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- 통계 필드:
-
features.custom_stats
-
- 탐지 조건:
- "min_weighted_length_diff" 또는 "max_weight_length_diff"를 이름으로 가지는
features.custom_stats
및 -
min_weight_length_diff
또는max_weight_length_diff
맞춤 통계 != 0
- "min_weighted_length_diff" 또는 "max_weight_length_diff"를 이름으로 가지는
- 스키마 필드:
VALUE_NESTEDNESS_MISMATCH
- 스키마 필드:
-
feature.value_count
-
feature.value_counts
-
- 통계 필드:
-
features.common_stats.presence_and_valency_stats
-
- 탐지 조건:
-
feature.value_count
가 지정되고 기능의 반복된presence_and_valency_stats
(1보다 큰 중첩 수준을 나타냄)가 있고 -
feature.value_counts
지정되었으며 feature의presence_and_valency_stats
반복되는 횟수가feature.value_counts
내에서value_count
반복되는 횟수와 일치하지 않습니다.
-
- 스키마 필드:
DOMAIN_INVALID_FOR_TYPE
- 스키마 필드:
-
feature.type
-
feature.domain_info
-
- 통계 필드:
-
features.type
-
- 탐지 조건:
-
features.type
==BYTES
인 경우,-
feature.domain_info
는 호환되지 않는 유형입니다. 또는
-
- if
features.type
!=BYTES
,-
feature.domain_info
feature.type
일치하지 않습니다(예:int_domain
이 지정되었지만 기능type
이FLOAT
임).
-
-
- 스키마 필드:
FEATURE_MISSING_NAME
- 스키마 필드:
-
feature.name
-
- 탐지 조건:
-
feature.name
지정되지 않았습니다.
-
- 스키마 필드:
FEATURE_MISSING_TYPE
- 스키마 필드:
-
feature.type
-
- 탐지 조건:
-
feature.type
지정되지 않았습니다.
-
- 스키마 필드:
INVALID_SCHEMA_SPECIFICATION
- 스키마 필드:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- 탐지 조건:
-
feature.presence.min_fraction
< 0.0 또는 > 1.0, 또는 -
feature.value_count.min
< 0 또는 >feature.value_count.max
또는 - 기능에 대해 bool, int, float, struct 또는 의미 도메인이 지정되고 해당 기능에 대해
feature.distribution_constraints
도 지정되거나 - 기능에 대해
feature.distribution_constraints
지정되었지만 해당 기능에 대해 스키마 수준 도메인이나feature.string_domain
이 모두 지정되지 않았습니다.
-
- 스키마 필드:
INVALID_DOMAIN_SPECIFICATION
- 스키마 필드:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- 탐지 조건:
- 알 수 없는
feature.domain_info
유형이 지정되었거나 -
feature.domain
지정되었지만 스키마 수준에서 일치하는 도메인이 지정되지 않았거나 -
feature.bool_domain
,feature.bool_domain.true_value
및feature.bool_domain.false_value
지정된 경우,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
또는
-
-
feature.string_domain
지정된 경우,- 중복된
feature.string_domain.values
가 있거나 -
feature.string_domain
최대 크기를 초과합니다.
- 중복된
- 알 수 없는
- 스키마 필드:
UNEXPECTED_DATA_TYPE
- 스키마 필드:
-
feature.type
-
- 통계 필드:
-
features.type
-
- 탐지 조건:
-
features.type
feature.type
에 지정된 유형이 아닙니다.
-
- 스키마 필드:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- 스키마 필드:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- 통계 필드:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- 탐지 조건:
-
min_per_sequence
>per_sequence_min_frequency
-
- 스키마 필드:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- 스키마 필드:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- 통계 필드:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- 탐지 조건:
-
max_per_sequence
<per_sequence_max_frequency
-
- 스키마 필드:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- 스키마 필드:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- 통계 필드:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- 탐지 조건:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- 스키마 필드:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- 스키마 필드:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- 통계 필드:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- 탐지 조건:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- 스키마 필드:
FEATURE_COVERAGE_TOO_LOW
- 스키마 필드:
-
feature.natural_language_domain.coverage.min_coverage
-
- 통계 필드:
-
features.custom_stats.nl_statistics.feature_coverage
-
- 탐지 조건:
-
feature_coverage
<coverage.min_coverage
-
- 스키마 필드:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- 스키마 필드:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- 통계 필드:
-
features.custom_stats.nl_statistics.avg_token_length
-
- 탐지 조건:
-
avg_token_length
<min_avg_token_length
-
- 스키마 필드:
NLP_WRONG_LOCATION
- TFDV에서 감지되지 않는 이상 유형
EMBEDDING_SHAPE_INVALID
- TFDV에서 감지되지 않는 이상 유형
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- 스키마 필드:
-
feature.image_domain.max_image_byte_size
-
- 통계 필드:
-
features.bytes_stats.max_num_bytes_int
-
- 탐지 조건:
-
max_num_bytes_int
>max_image_byte_size
-
- 스키마 필드:
INVALID_FEATURE_SHAPE
- 스키마 필드:
-
feature.shape
-
- 통계 필드:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- 탐지 조건:
-
feature.shape
가 지정되고- 일부 중첩 수준에서 기능이 누락되었을 수 있습니다(
num_missing
!= 0). - 기능은 일부 중첩 수준에서 가변 개수의 값(
min_num_values
!=max_num_values
)을 가질 수 있습니다. - 지정된 모양이 기능의 값 개수 통계와 호환되지 않습니다. 예를 들어 모양
[16]
은 (min_num_values
==max_num_values
==[2, 2, 4]
(3-중첩 기능의 경우))와 호환됩니다.
- 일부 중첩 수준에서 기능이 누락되었을 수 있습니다(
-
- 스키마 필드:
STATS_NOT_AVAILBLE
- 제약 조건의 유효성을 검사하는 데 필요한 통계가 없을 때 이상 현상이 발생합니다.
DERIVED_FEATURE_BAD_LIFECYCLE
- 스키마 필드:
-
feature.lifecycle_stage
-
- 통계 필드:
-
features.validation_derived_source
-
- 탐지 조건:
-
feature.lifecycle_stage
DERIVED
또는DISABLED
중 하나가 아니며features.validation_derived_source
있어 이것이 파생된 기능임을 나타냅니다.
-
- 스키마 필드:
DERIVED_FEATURE_INVALID_SOURCE
- 스키마 필드:
-
feature.validation_derived_source
-
- 통계 필드:
-
features.validation_derived_source
-
- 탐지 조건:
-
features.validation_derived_source
는 기능에 대해 있지만 해당feature.validation_derived_source
는 없습니다.
-
- 스키마 필드:
* 이 필드에 가중 통계가 있는 경우 비가중 통계 대신 사용됩니다.