TFDV kiểm tra sự bất thường bằng cách so sánh (các) sơ đồ lược đồ và thống kê. Biểu đồ sau đây liệt kê các loại dị thường mà TFDV có thể phát hiện, các trường lược đồ và thống kê được sử dụng để phát hiện từng loại dị thường và (các) điều kiện mà mỗi loại dị thường được phát hiện.
BOOL_TYPE_BIG_INT
- Trường lược đồ:
-
feature.bool_domain
-
- Các trường thống kê:
-
features.num_stats.max
-
features.type
-
- Điều kiện phát hiện:
-
feature.bool_domain
được chỉ định và -
features.type
==INT
và -
features.num_stats.max
> 1
-
- Trường lược đồ:
BOOL_TYPE_BYTES_NOT_INT
- Loại bất thường không được phát hiện trong TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Loại bất thường không được phát hiện trong TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
BOOL_TYPE_INT_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
BOOL_TYPE_SMALL_INT
- Trường lược đồ:
-
feature.bool_domain
-
- Các trường thống kê:
-
features.num_stats.min
-
features.type
-
- Điều kiện phát hiện:
-
features.type
==INT
và -
feature.bool_domain
được chỉ định và -
features.num_stats.min
< 0
-
- Trường lược đồ:
BOOL_TYPE_STRING_NOT_INT
- Loại bất thường không được phát hiện trong TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Trường lược đồ:
-
feature.bool_domain
-
- Các trường thống kê:
-
features.string_stats.rank_histogram
*
-
- Điều kiện phát hiện:
-
features.type
==STRING
và -
feature.bool_domain
được chỉ định và - ít nhất một giá trị trong
rank_histogram
* không phải làfeature.bool_domain.true_value
hoặcfeature.bool_domain.false_value
-
- Trường lược đồ:
BOOL_TYPE_UNEXPECTED_FLOAT
- Trường lược đồ:
-
feature.bool_domain
-
- Các trường thống kê:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- Điều kiện phát hiện:
-
features.type
==FLOAT
và -
feature.bool_domain
được chỉ định và một trong hai- (
features.num_stats.min
!= 0 hoặcfeatures.num_stats.min
!= 1) hoặc - (
features.num_stats.max
!= 0 hoặcfeatures.num_stats.max
!= 1) hoặc -
features.num_stats.histograms.num_nan
> 0 hoặc - (
features.num_stats.histograms.buckets.low_value
!= 0 hoặcfeatures.num_stats.histograms.buckets.high_value
!= 1) vàfeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- Trường lược đồ:
BOOL_TYPE_INVALID_CONFIG
- Trường lược đồ:
-
feature.bool_domain
-
- Các trường thống kê:
-
features.type
-
- Điều kiện phát hiện:
- Nếu
features.type
==INT
hoặcFLOAT
,-
feature.bool_domain
được chỉ định và -
feature.bool_domain.true_value
hoặcfeature.bool_domain.false_value
được chỉ định hoặc
-
- nếu
features.type
==STRING
,-
feature.bool_domain
được chỉ định và -
feature.bool_domain.true_value
vàfeature.bool_domain.false_value
không được chỉ định
-
- Nếu
- Trường lược đồ:
ENUM_TYPE_BYTES_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
ENUM_TYPE_INT_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
ENUM_TYPE_INVALID_UTF8
- Các trường thống kê:
-
features.string_stats.invalid_utf8_count
-
- Điều kiện phát hiện:
-
invalid_utf8_count
> 0
-
- Các trường thống kê:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Trường lược đồ:
-
string_domain
vàfeature.domain
; hoặcfeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- Các trường thống kê:
-
features.string_stats.rank_histogram
*
-
- Điều kiện phát hiện:
- Hoặc (số lượng giá trị trong
rank_histogram
* không có trong miền / tổng số giá trị) > (1 -feature.distribution_constraints.min_domain_mass
) hoặc -
feature.distribution_constraints.min_domain_mass
== 1.0 và có các giá trị trong biểu đồ không có trong miền
- Hoặc (số lượng giá trị trong
- Trường lược đồ:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Trường lược đồ:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- Các trường thống kê:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- Điều kiện phát hiện:
- Nếu
feature.value_count.max
được chỉ định-
features.common_stats.max_num_values
>feature.value_count.max
; hoặc
-
- nếu
feature.value_counts
được chỉ định-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
ở mức độ lồng nhau nhất định
-
- Nếu
- Trường lược đồ:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Trường lược đồ:
-
feature.presence.min_fraction
-
- Các trường thống kê:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- Điều kiện phát hiện:
-
feature.presence.min_fraction
được chỉ định và (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
hoặc -
feature.presence.min_fraction
== 1.0 vàcommon_stats.num_missing
!= 0
-
- Trường lược đồ:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Trường lược đồ:
-
feature.presence.min_count
-
- Các trường thống kê:
-
features.common_stats.num_non_missing
*
-
- Điều kiện phát hiện:
-
feature.presence.min_count
được chỉ định và một trong hai-
features.common_stats.num_non_missing
* == 0 hoặc -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- Trường lược đồ:
FEATURE_TYPE_LOW_NUMBER_VALUES
- Trường lược đồ:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- Các trường thống kê:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- Điều kiện phát hiện:
- Nếu
feature.value_count.min
được chỉ định-
features.common_stats.min_num_values
<feature.value_count.min
; hoặc
-
- nếu
feature.value_counts
được chỉ định-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
ở mức lồng nhau nhất định
-
- Nếu
- Trường lược đồ:
FEATURE_TYPE_NOT_PRESENT
- Trường lược đồ:
-
feature.in_environment
hoặcfeature.not_in_environment
hoặcschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
hoặcfeature.presence.min_fraction
-
- Các trường thống kê:
-
features.common_stats.num_non_missing
*
-
- Điều kiện phát hiện:
-
feature.lifecycle_stage
không có trong [PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] và -
common_stats.num_non_missing
* == 0 và - (
feature.presence.min_count
> 0 hoặcfeature.presence.min_fraction
> 0) và một trong hai-
feature.in_environment
== môi trường hiện tại hoặc -
feature.not_in_environment
!= môi trường hiện tại hoặc -
schema.default_environment
!= môi trường hiện tại
-
-
- Trường lược đồ:
FEATURE_TYPE_NO_VALUES
- Loại bất thường không được phát hiện trong TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Loại bất thường không được phát hiện trong TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Trường lược đồ:
-
feature.unique_constraints.max
-
- Các trường thống kê:
-
features.string_stats.unique
-
- Điều kiện phát hiện:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- Trường lược đồ:
FEATURE_TYPE_LOW_UNIQUE
- Trường lược đồ:
-
feature.unique_constraints.min
-
- Các trường thống kê:
-
features.string_stats.unique
-
- Điều kiện phát hiện:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- Trường lược đồ:
FEATURE_TYPE_NO_UNIQUE
- Trường lược đồ:
-
feature.unique_constraints
-
- Các trường thống kê:
-
features.string_stats.unique
-
- Điều kiện phát hiện:
-
feature.unique_constraints
được chỉ định nhưng không cófeatures.string_stats.unique
(như trường hợp đối tượng không phải là một chuỗi hoặc phân loại)
-
- Trường lược đồ:
FLOAT_TYPE_BIG_FLOAT
- Trường lược đồ:
-
feature.float_domain.max
-
- Các trường thống kê:
-
features.type
-
features.num_stats.max
hoặcfeatures.string_stats.rank_histogram
-
- Điều kiện phát hiện:
- Nếu
features.type
==FLOAT
,-
features.num_stats.max
>feature.float_domain.max
; hoặc
-
- nếu
features.type
==BYTES
hoặcSTRING
,- giá trị tối đa trong
features.string_stats.rank_histogram
(khi được chuyển đổi thành float) >feature.float_domain.max
- giá trị tối đa trong
- Nếu
- Trường lược đồ:
FLOAT_TYPE_NOT_FLOAT
- Loại bất thường không được phát hiện trong TFDV
FLOAT_TYPE_SMALL_FLOAT
- Trường lược đồ:
-
feature.float_domain.min
-
- Các trường thống kê:
-
features.type
-
features.num_stats.min
hoặcfeatures.string_stats.rank_histogram
-
- Điều kiện phát hiện:
- Nếu
features.type
==FLOAT
,-
features.num_stats.min
<feature.float_domain.min
; hoặc
-
- nếu
features.type
==BYTES
hoặcSTRING
,- giá trị tối thiểu trong
features.string_stats.rank_histogram
(khi được chuyển đổi thành float) <feature.float_domain.min
- giá trị tối thiểu trong
- Nếu
- Trường lược đồ:
FLOAT_TYPE_STRING_NOT_FLOAT
- Trường lược đồ:
-
feature.float_domain
-
- Các trường thống kê:
-
features.type
-
features.string_stats.rank_histogram
-
- Điều kiện phát hiện:
-
features.type
==BYTES
hoặcSTRING
và -
features.string_stats.rank_histogram
có ít nhất một giá trị không thể chuyển đổi thành float
-
- Trường lược đồ:
FLOAT_TYPE_NON_STRING
- Loại bất thường không được phát hiện trong TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Loại bất thường không được phát hiện trong TFDV
FLOAT_TYPE_HAS_NAN
- Trường lược đồ:
-
feature.float_domain.disallow_nan
-
- Các trường thống kê:
-
features.type
-
features.num_stats.histograms.num_nan
-
- Điều kiện phát hiện:
-
float_domain.disallow_nan
là đúng và -
features.num_stats.histograms.num_nan
> 0
-
- Trường lược đồ:
FLOAT_TYPE_HAS_INF
- Trường lược đồ:
-
feature.float_domain.disallow_inf
-
- Các trường thống kê:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- Điều kiện phát hiện:
-
features.type
==FLOAT
-
float_domain.disallow_inf
là đúng và một trong hai-
features.num_stats.min
==inf/-inf
hoặc -
features.num_stats.max
==inf/-inf
-
-
- Trường lược đồ:
INT_TYPE_BIG_INT
- Trường lược đồ:
-
feature.int_domain.max
-
- Các trường thống kê:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- Điều kiện phát hiện:
- Nếu
features.type
==INT
,-
features.num_stats.max
>feature.int_domain.max
; hoặc
-
- nếu
features.type
==BYTES
hoặcSTRING
,- giá trị tối đa trong
features.string_stats.rank_histogram
(khi được chuyển đổi thành int) >feature.int_domain.max
- giá trị tối đa trong
- Nếu
- Trường lược đồ:
INT_TYPE_INT_EXPECTED
- Loại bất thường không được phát hiện trong TFDV
INT_TYPE_NOT_INT_STRING
- Trường lược đồ:
-
feature.int_domain
-
- Các trường thống kê:
-
features.type
-
features.string_stats.rank_histogram
-
- Điều kiện phát hiện:
-
features.type
==BYTES
hoặcSTRING
và -
features.string_stats.rank_histogram
có ít nhất một giá trị không thể chuyển đổi thành int
-
- Trường lược đồ:
INT_TYPE_NOT_STRING
- Loại bất thường không được phát hiện trong TFDV
INT_TYPE_SMALL_INT
- Trường lược đồ:
-
feature.int_domain.min
-
- Các trường thống kê:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- Điều kiện phát hiện:
- Nếu
features.type
==INT
,-
features.num_stats.min
<feature.int_domain.min
; hoặc
-
- nếu
features.type
==BYTES
hoặcSTRING
,- giá trị tối thiểu trong
features.string_stats.rank_histogram
(khi được chuyển đổi thành int) <feature.int_domain.min
- giá trị tối thiểu trong
- Nếu
- Trường lược đồ:
INT_TYPE_STRING_EXPECTED
- Loại bất thường không được phát hiện trong TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Loại bất thường không được phát hiện trong TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Trường lược đồ:
-
feature.image_domain.minimum_supported_image_fraction
-
- Các trường thống kê:
-
features.custom_stats.rank_histogram
cho custom_stats có tênimage_format_histogram
. Lưu ý rằng số liệu thống kê miền ngữ nghĩa phải được bật để image_format_histogram được tạo và để thực hiện xác thực này. Thống kê miền ngữ nghĩa không được tạo theo mặc định.
-
- Điều kiện phát hiện:
- Tỷ lệ giá trị được hỗ trợ loại hình ảnh Tensorflow cho tất cả các loại hình ảnh ít hơn
feature.image_domain.minimum_supported_image_fraction
.
- Tỷ lệ giá trị được hỗ trợ loại hình ảnh Tensorflow cho tất cả các loại hình ảnh ít hơn
- Trường lược đồ:
SCHEMA_MISSING_COLUMN
- Trường lược đồ:
-
feature.in_environment
hoặcfeature.not_in_environment
hoặcschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
hoặcfeature.presence.min_fraction
-
- Điều kiện phát hiện:
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
hoặcDEPRECATED
và -
feature.presence.min_count
> 0 hoặcfeature.presence.min_fraction
> 0 và -
feature.in_environment
== môi trường hiện tại hoặcfeature.not_in_environment
!= môi trường hiện tại hoặcschema.default_environment
!= môi trường hiện tại và - không tìm thấy tính năng nào có tên/đường dẫn đã chỉ định trong proto thống kê
-
- Trường lược đồ:
SCHEMA_NEW_COLUMN
- Điều kiện phát hiện:
- có một tính năng trong nguyên mẫu thống kê nhưng không có tính năng nào có tên/đường dẫn của nó trong nguyên mẫu lược đồ
- Điều kiện phát hiện:
SCHEMA_TRAINING_SERVING_SKEW
- Loại bất thường không được phát hiện trong TFDV
STRING_TYPE_NOW_FLOAT
- Loại bất thường không được phát hiện trong TFDV
STRING_TYPE_NOW_INT
- Loại bất thường không được phát hiện trong TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Trường lược đồ:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Điều kiện phát hiện:
- proto thống kê kiểm soát (nghĩa là cung cấp số liệu thống kê cho độ lệch hoặc số liệu thống kê trước đó cho độ lệch) có sẵn nhưng không chứa tính năng được chỉ định
- Trường lược đồ:
COMPARATOR_TREATMENT_DATA_MISSING
- Loại bất thường không được phát hiện trong TFDV
COMPARATOR_L_INFTY_HIGH
- Trường lược đồ:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Các trường thống kê:
-
features.string_stats.rank_histogram
*
-
- Điều kiện phát hiện:
- Định mức vô cực L của vectơ biểu thị sự khác biệt giữa số lượng được chuẩn hóa từ
features.string_stats.rank_histogram
* trong thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê đào tạo cho nghiêng hoặc số liệu thống kê hiện tại về độ trôi) >feature.skew_comparator.infinity_norm.threshold
hoặcfeature.drift_comparator.infinity_norm.threshold
- Định mức vô cực L của vectơ biểu thị sự khác biệt giữa số lượng được chuẩn hóa từ
- Trường lược đồ:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Trường lược đồ:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- Các trường thống kê:
-
features.string_stats.rank_histogram
-
- Điều kiện phát hiện:
- Sự khác biệt về số lượng tuyệt đối được chuẩn hóa của giá trị được tính từ
features.string_stats.rank_histogram
trong thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê huấn luyện cho độ lệch hoặc thống kê hiện tại cho độ lệch) Feature.skew_comparator.normalized_abs_difference.threshold hoặc Feature.drift_comparator.normalized_abs_difference.threshold. Sự khác biệt về số lượng được chuẩn hóa bằng tổng số lượng trên cả hai điều kiện.
- Sự khác biệt về số lượng tuyệt đối được chuẩn hóa của giá trị được tính từ
- Trường lược đồ:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Trường lược đồ:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- Các trường thống kê:
-
features.num_stats.histograms
thuộc loạiSTANDARD
-
features.string_stats.rank_histogram
*
-
- Điều kiện phát hiện:
- Phân kỳ Jensen-Shannon gần đúng được tính toán giữa thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê huấn luyện cho độ lệch hoặc thống kê hiện tại cho độ lệch) >
feature.skew_comparator.jensen_shannon_divergence.threshold
hoặcfeature.drift_comparator.jensen_shannon_divergence.threshold
. Độ phân kỳ Jensen-Shannon gần đúng được tính toán dựa trên số lượng mẫu được chuẩn hóa trong cả biểu đồ tiêu chuẩnfeatures.num_stats.histograms
vàfeatures.string_stats.rank_histogram
*.
- Phân kỳ Jensen-Shannon gần đúng được tính toán giữa thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê huấn luyện cho độ lệch hoặc thống kê hiện tại cho độ lệch) >
- Trường lược đồ:
NO_DATA_IN_SPAN
- Loại bất thường không được phát hiện trong TFDV
SPARSE_FEATURE_MISSING_VALUE
- Trường lược đồ:
-
sparse_feature.value_feature
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
với "missing_value" là tên và - thống kê tùy chỉnh
missing_value
!= 0
-
- Trường lược đồ:
SPARSE_FEATURE_MISSING_INDEX
- Trường lược đồ:
-
sparse_feature.index_feature
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
với tên "missing_index" và - Chỉ số tùy chỉnh
missing_index
chứa bất kỳ giá trị nào != 0
-
- Trường lược đồ:
SPARSE_FEATURE_LENGTH_MISMATCH
- Trường lược đồ:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
với tên "min_length_diff" hoặc "max_length_diff" - chỉ số tùy chỉnh
min_length_diff
hoặcmax_length_diff
chứa bất kỳ giá trị nào != 0
-
- Trường lược đồ:
SPARSE_FEATURE_NAME_COLLISION
- Trường lược đồ:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Điều kiện phát hiện:
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
hoặcDEPRECATED
và -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
hoặcDEPRECATED
và -
sparse_feature.name
==feature.name
-
- Trường lược đồ:
SEMANTIC_DOMAIN_UPDATE
- Trường lược đồ:
-
feature.domain_info
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
với "domain_info" là tên và -
feature.domain_info
chưa được đặt trong lược đồ và - có một chỉ số tùy chỉnh
domain_info
duy nhất cho tính năng này
-
- Trường lược đồ:
COMPARATOR_LOW_NUM_EXAMPLES
- Trường lược đồ:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- Các trường thống kê:
-
num_examples
*
-
- Điều kiện phát hiện:
-
num_examples
* > 0 và - proto thống kê trước đó có sẵn và
-
num_examples
* / thống kê trước đónum_examples
* < bộ so sánhmin_fraction_threshold
-
- Trường lược đồ:
COMPARATOR_HIGH_NUM_EXAMPLES
- Trường lược đồ:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- Các trường thống kê:
-
num_examples
*
-
- Điều kiện phát hiện:
-
num_examples
* > 0 và - proto thống kê trước đó có sẵn và
-
num_examples
* / số liệu thống kê trước đónum_examples
* > bộ so sánhmax_fraction_threshold
-
- Trường lược đồ:
DATASET_LOW_NUM_EXAMPLES
- Trường lược đồ:
-
schema.dataset_constraints.min_examples_count
-
- Các trường thống kê:
-
num_examples
*
-
- Điều kiện phát hiện:
-
num_examples
* <dataset_constraints.min_examples_count
-
- Trường lược đồ:
DATASET_HIGH_NUM_EXAMPLES
- Trường lược đồ:
-
schema.dataset_constraints.max_examples_count
-
- Các trường thống kê:
-
num_examples
*
-
- Điều kiện phát hiện:
-
num_examples
* >dataset_constraints.max_examples_count
-
- Trường lược đồ:
WEIGHTED_FEATURE_NAME_COLLISION
- Trường lược đồ:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Điều kiện phát hiện:
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
hoặcDEPRECATED
và một trong hai- nếu
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
hoặcDEPRECATED
,-
weighted_feature.name
==feature.name
; hoặc
-
- nếu
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
hoặcDEPRECATED
,-
weighted_feature.name
==sparse_feature.name
-
- nếu
-
- Trường lược đồ:
WEIGHTED_FEATURE_MISSING_VALUE
- Trường lược đồ:
-
weighted_feature.feature
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
với "missing_value" là tên và - thống kê tùy chỉnh
missing_value
!= 0
-
- Trường lược đồ:
WEIGHTED_FEATURE_MISSING_WEIGHT
- Trường lược đồ:
-
weighted_feature.weight_feature
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
với tên là "missing_weight" và - thống kê tùy chỉnh
missing_weight
!= 0
-
- Trường lược đồ:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Trường lược đồ:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- Các trường thống kê:
-
features.custom_stats
-
- Điều kiện phát hiện:
-
features.custom_stats
có tên là "min_weighted_length_diff" hoặc "max_weight_length_diff" và - chỉ số tùy chỉnh
min_weight_length_diff
hoặcmax_weight_length_diff
!= 0
-
- Trường lược đồ:
VALUE_NESTEDNESS_MISMATCH
- Trường lược đồ:
-
feature.value_count
-
feature.value_counts
-
- Các trường thống kê:
-
features.common_stats.presence_and_valency_stats
-
- Điều kiện phát hiện:
-
feature.value_count
được chỉ định và có một số lượng lặp lạipresence_and_valency_stats
của tính năng (biểu thị mức độ lồng nhau lớn hơn một) và -
feature.value_counts
được chỉ định và số lầnpresence_and_valency_stats
của tính năng được lặp lại không khớp với số lầnvalue_count
được lặp lại trongfeature.value_counts
-
- Trường lược đồ:
DOMAIN_INVALID_FOR_TYPE
- Trường lược đồ:
-
feature.type
-
feature.domain_info
-
- Các trường thống kê:
-
features.type
-
- Điều kiện phát hiện:
- Nếu
features.type
==BYTES
,-
feature.domain_info
thuộc loại không tương thích; hoặc
-
- nếu
features.type
!=BYTES
,-
feature.domain_info
không khớp vớifeature.type
(ví dụ:int_domain
được chỉ định, nhưngtype
của tính năng làFLOAT
)
-
- Nếu
- Trường lược đồ:
FEATURE_MISSING_NAME
- Trường lược đồ:
-
feature.name
-
- Điều kiện phát hiện:
-
feature.name
không được chỉ định
-
- Trường lược đồ:
FEATURE_MISSING_TYPE
- Trường lược đồ:
-
feature.type
-
- Điều kiện phát hiện:
-
feature.type
không được chỉ định
-
- Trường lược đồ:
INVALID_SCHEMA_SPECIFICATION
- Trường lược đồ:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- Điều kiện phát hiện:
-
feature.presence.min_fraction
< 0,0 hoặc > 1,0 hoặc -
feature.value_count.min
< 0 hoặc >feature.value_count.max
hoặc - một miền bool, int, float, struct hoặc ngữ nghĩa được chỉ định cho một tính năng và
feature.distribution_constraints
cũng được chỉ định cho tính năng đó hoặc -
feature.distribution_constraints
được chỉ định cho một tính năng, nhưng cả miền cấp lược đồ vàfeature.string_domain
đều không được chỉ định cho tính năng đó
-
- Trường lược đồ:
INVALID_DOMAIN_SPECIFICATION
- Trường lược đồ:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- Điều kiện phát hiện:
- Loại
feature.domain_info
không xác định được chỉ định hoặc -
feature.domain
được chỉ định, nhưng không có miền phù hợp được chỉ định ở cấp lược đồ hoặc - nếu
feature.bool_domain
,feature.bool_domain.true_value
vàfeature.bool_domain.false_value
được chỉ định,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
hoặc
-
- nếu
feature.string_domain
được chỉ định,- đã trùng lặp
feature.string_domain.values
hoặc -
feature.string_domain
vượt quá kích thước tối đa
- đã trùng lặp
- Loại
- Trường lược đồ:
UNEXPECTED_DATA_TYPE
- Trường lược đồ:
-
feature.type
-
- Các trường thống kê:
-
features.type
-
- Điều kiện phát hiện:
-
features.type
không phải là loại được chỉ định trongfeature.type
-
- Trường lược đồ:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Trường lược đồ:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- Các trường thống kê:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- Điều kiện phát hiện:
-
min_per_sequence
>per_sequence_min_frequency
-
- Trường lược đồ:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Trường lược đồ:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- Các trường thống kê:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- Điều kiện phát hiện:
-
max_per_sequence
<per_sequence_max_frequency
-
- Trường lược đồ:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Trường lược đồ:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- Các trường thống kê:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Điều kiện phát hiện:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- Trường lược đồ:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Trường lược đồ:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- Các trường thống kê:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Điều kiện phát hiện:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- Trường lược đồ:
FEATURE_COVERAGE_TOO_LOW
- Trường lược đồ:
-
feature.natural_language_domain.coverage.min_coverage
-
- Các trường thống kê:
-
features.custom_stats.nl_statistics.feature_coverage
-
- Điều kiện phát hiện:
-
feature_coverage
<coverage.min_coverage
-
- Trường lược đồ:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Trường lược đồ:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- Các trường thống kê:
-
features.custom_stats.nl_statistics.avg_token_length
-
- Điều kiện phát hiện:
-
avg_token_length
<min_avg_token_length
-
- Trường lược đồ:
NLP_WRONG_LOCATION
- Loại bất thường không được phát hiện trong TFDV
EMBEDDING_SHAPE_INVALID
- Loại bất thường không được phát hiện trong TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Trường lược đồ:
-
feature.image_domain.max_image_byte_size
-
- Các trường thống kê:
-
features.bytes_stats.max_num_bytes_int
-
- Điều kiện phát hiện:
-
max_num_bytes_int
>max_image_byte_size
-
- Trường lược đồ:
INVALID_FEATURE_SHAPE
- Trường lược đồ:
-
feature.shape
-
- Các trường thống kê:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- Điều kiện phát hiện:
-
feature.shape
được chỉ định và một trong hai- tính năng này có thể bị thiếu (
num_missing
!= 0) ở cấp tổ hợp nào đó hoặc - đối tượng địa lý có thể có số lượng giá trị thay đổi (
min_num_values
!=max_num_values
) ở một mức tổ hợp nào đó hoặc - hình dạng được chỉ định không tương thích với số liệu thống kê về số lượng giá trị của đối tượng địa lý. Ví dụ: hình
[16]
tương thích với (min_num_values
==max_num_values
==[2, 2, 4]
(đối với tính năng 3 lồng nhau))
- tính năng này có thể bị thiếu (
-
- Trường lược đồ:
STATS_NOT_AVAILBLE
- Sự bất thường xảy ra khi không có số liệu thống kê cần thiết để xác thực các ràng buộc.
DERIVED_FEATURE_BAD_LIFECYCLE
- Trường lược đồ:
-
feature.lifecycle_stage
-
- Các trường thống kê:
-
features.validation_derived_source
-
- Điều kiện phát hiện:
-
feature.lifecycle_stage
không phải là một trongDERIVED
hoặcDISABLED
vàfeatures.validation_derived_source
hiện diện, cho biết đây là một tính năng phái sinh.
-
- Trường lược đồ:
DERIVED_FEATURE_INVALID_SOURCE
- Trường lược đồ:
-
feature.validation_derived_source
-
- Các trường thống kê:
-
features.validation_derived_source
-
- Điều kiện phát hiện:
-
features.validation_derived_source
hiện diện cho một đối tượng địa lý, nhưngfeature.validation_derived_source
tương ứng thì không.
-
- Trường lược đồ:
* Nếu thống kê có trọng số sẵn có cho trường này, nó sẽ được sử dụng thay cho thống kê không có trọng số.