TFDV memeriksa anomali dengan membandingkan skema dan proto statistik. Bagan berikut mencantumkan jenis anomali yang dapat dideteksi TFDV, bidang skema dan statistik yang digunakan untuk mendeteksi setiap jenis anomali, dan kondisi di mana setiap jenis anomali terdeteksi.
BOOL_TYPE_BIG_INT
- Bidang Skema:
-
feature.bool_domain
-
- Bidang Statistik:
-
features.num_stats.max
-
features.type
-
- Kondisi Deteksi:
-
feature.bool_domain
ditentukan dan -
features.type
==INT
dan -
features.num_stats.max
> 1
-
- Bidang Skema:
BOOL_TYPE_BYTES_NOT_INT
- Jenis anomali tidak terdeteksi di TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Jenis anomali tidak terdeteksi di TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
BOOL_TYPE_INT_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
BOOL_TYPE_SMALL_INT
- Bidang Skema:
-
feature.bool_domain
-
- Bidang Statistik:
-
features.num_stats.min
-
features.type
-
- Kondisi Deteksi:
-
features.type
==INT
dan -
feature.bool_domain
ditentukan dan -
features.num_stats.min
< 0
-
- Bidang Skema:
BOOL_TYPE_STRING_NOT_INT
- Jenis anomali tidak terdeteksi di TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Bidang Skema:
-
feature.bool_domain
-
- Bidang Statistik:
-
features.string_stats.rank_histogram
*
-
- Kondisi Deteksi:
-
features.type
==STRING
dan -
feature.bool_domain
ditentukan dan - setidaknya satu nilai di
rank_histogram
* bukanfeature.bool_domain.true_value
ataufeature.bool_domain.false_value
-
- Bidang Skema:
BOOL_TYPE_UNEXPECTED_FLOAT
- Bidang Skema:
-
feature.bool_domain
-
- Bidang Statistik:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- Kondisi Deteksi:
-
features.type
==FLOAT
dan -
feature.bool_domain
ditentukan dan keduanya- (
features.num_stats.min
!= 0 ataufeatures.num_stats.min
!= 1) atau - (
features.num_stats.max
!= 0 ataufeatures.num_stats.max
!= 1) atau -
features.num_stats.histograms.num_nan
> 0 atau - (
features.num_stats.histograms.buckets.low_value
!= 0 ataufeatures.num_stats.histograms.buckets.high_value
!= 1) danfeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- Bidang Skema:
BOOL_TYPE_INVALID_CONFIG
- Bidang Skema:
-
feature.bool_domain
-
- Bidang Statistik:
-
features.type
-
- Kondisi Deteksi:
- Jika
features.type
==INT
atauFLOAT
,-
feature.bool_domain
ditentukan dan -
feature.bool_domain.true_value
ataufeature.bool_domain.false_value
ditentukan, atau
-
- jika
features.type
==STRING
,-
feature.bool_domain
ditentukan dan -
feature.bool_domain.true_value
danfeature.bool_domain.false_value
tidak ditentukan
-
- Jika
- Bidang Skema:
ENUM_TYPE_BYTES_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
ENUM_TYPE_INT_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
ENUM_TYPE_INVALID_UTF8
- Bidang Statistik:
-
features.string_stats.invalid_utf8_count
-
- Kondisi Deteksi:
-
invalid_utf8_count
> 0
-
- Bidang Statistik:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Bidang Skema:
-
string_domain
danfeature.domain
; ataufeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- Bidang Statistik:
-
features.string_stats.rank_histogram
*
-
- Kondisi Deteksi:
- Entah (jumlah nilai dalam
rank_histogram
* yang tidak ada dalam domain / jumlah total nilai) > (1 -feature.distribution_constraints.min_domain_mass
) atau -
feature.distribution_constraints.min_domain_mass
== 1.0 dan ada nilai di histogram yang tidak ada di domain
- Entah (jumlah nilai dalam
- Bidang Skema:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Bidang Skema:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- Bidang Statistik:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- Kondisi Deteksi:
- Jika
feature.value_count.max
ditentukan-
features.common_stats.max_num_values
>feature.value_count.max
; atau
-
- jika
feature.value_counts
ditentukan-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
pada tingkat nestedness tertentu
-
- Jika
- Bidang Skema:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Bidang Skema:
-
feature.presence.min_fraction
-
- Bidang Statistik:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- Kondisi Deteksi:
-
feature.presence.min_fraction
ditentukan dan (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
atau -
feature.presence.min_fraction
== 1.0 dancommon_stats.num_missing
!= 0
-
- Bidang Skema:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Bidang Skema:
-
feature.presence.min_count
-
- Bidang Statistik:
-
features.common_stats.num_non_missing
*
-
- Kondisi Deteksi:
-
feature.presence.min_count
ditentukan dan keduanya-
features.common_stats.num_non_missing
* == 0 atau -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- Bidang Skema:
FEATURE_TYPE_LOW_NUMBER_VALUES
- Bidang Skema:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- Bidang Statistik:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- Kondisi Deteksi:
- Jika
feature.value_count.min
ditentukan-
features.common_stats.min_num_values
<feature.value_count.min
; atau
-
- jika
feature.value_counts
ditentukan-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
pada tingkat nestedness tertentu
-
- Jika
- Bidang Skema:
FEATURE_TYPE_NOT_PRESENT
- Bidang Skema:
-
feature.in_environment
ataufeature.not_in_environment
atauschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
ataufeature.presence.min_fraction
-
- Bidang Statistik:
-
features.common_stats.num_non_missing
*
-
- Kondisi Deteksi:
-
feature.lifecycle_stage
tidak dalam [PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] dan -
common_stats.num_non_missing
* == 0 dan - (
feature.presence.min_count
> 0 ataufeature.presence.min_fraction
> 0) dan salah satunya-
feature.in_environment
== lingkungan saat ini atau -
feature.not_in_environment
!= lingkungan saat ini atau -
schema.default_environment
!= lingkungan saat ini
-
-
- Bidang Skema:
FEATURE_TYPE_NO_VALUES
- Jenis anomali tidak terdeteksi di TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Jenis anomali tidak terdeteksi di TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Bidang Skema:
-
feature.unique_constraints.max
-
- Bidang Statistik:
-
features.string_stats.unique
-
- Kondisi Deteksi:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- Bidang Skema:
FEATURE_TYPE_LOW_UNIQUE
- Bidang Skema:
-
feature.unique_constraints.min
-
- Bidang Statistik:
-
features.string_stats.unique
-
- Kondisi Deteksi:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- Bidang Skema:
FEATURE_TYPE_NO_UNIQUE
- Bidang Skema:
-
feature.unique_constraints
-
- Bidang Statistik:
-
features.string_stats.unique
-
- Kondisi Deteksi:
-
feature.unique_constraints
ditentukan tetapi tidak adafeatures.string_stats.unique
yang ada (seperti kasus di mana fitur tersebut bukan string atau kategori)
-
- Bidang Skema:
FLOAT_TYPE_BIG_FLOAT
- Bidang Skema:
-
feature.float_domain.max
-
- Bidang Statistik:
-
features.type
-
features.num_stats.max
ataufeatures.string_stats.rank_histogram
-
- Kondisi Deteksi:
- Jika
features.type
==FLOAT
,-
features.num_stats.max
>feature.float_domain.max
; atau
-
- jika
features.type
==BYTES
atauSTRING
,- nilai maksimum dalam
features.string_stats.rank_histogram
(saat dikonversi ke float) >feature.float_domain.max
- nilai maksimum dalam
- Jika
- Bidang Skema:
FLOAT_TYPE_NOT_FLOAT
- Jenis anomali tidak terdeteksi di TFDV
FLOAT_TYPE_SMALL_FLOAT
- Bidang Skema:
-
feature.float_domain.min
-
- Bidang Statistik:
-
features.type
-
features.num_stats.min
ataufeatures.string_stats.rank_histogram
-
- Kondisi Deteksi:
- Jika
features.type
==FLOAT
,-
features.num_stats.min
<feature.float_domain.min
; atau
-
- jika
features.type
==BYTES
atauSTRING
,- nilai minimum di
features.string_stats.rank_histogram
(saat dikonversi ke float) <feature.float_domain.min
- nilai minimum di
- Jika
- Bidang Skema:
FLOAT_TYPE_STRING_NOT_FLOAT
- Bidang Skema:
-
feature.float_domain
-
- Bidang Statistik:
-
features.type
-
features.string_stats.rank_histogram
-
- Kondisi Deteksi:
-
features.type
==BYTES
atauSTRING
dan -
features.string_stats.rank_histogram
memiliki setidaknya satu nilai yang tidak dapat diubah menjadi float
-
- Bidang Skema:
FLOAT_TYPE_NON_STRING
- Jenis anomali tidak terdeteksi di TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Jenis anomali tidak terdeteksi di TFDV
FLOAT_TYPE_HAS_NAN
- Bidang Skema:
-
feature.float_domain.disallow_nan
-
- Bidang Statistik:
-
features.type
-
features.num_stats.histograms.num_nan
-
- Kondisi Deteksi:
-
float_domain.disallow_nan
benar dan -
features.num_stats.histograms.num_nan
> 0
-
- Bidang Skema:
FLOAT_TYPE_HAS_INF
- Bidang Skema:
-
feature.float_domain.disallow_inf
-
- Bidang Statistik:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- Kondisi Deteksi:
-
features.type
==FLOAT
-
float_domain.disallow_inf
benar dan salah satunya-
features.num_stats.min
==inf/-inf
atau -
features.num_stats.max
==inf/-inf
-
-
- Bidang Skema:
INT_TYPE_BIG_INT
- Bidang Skema:
-
feature.int_domain.max
-
- Bidang Statistik:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- Kondisi Deteksi:
- Jika
features.type
==INT
,-
features.num_stats.max
>feature.int_domain.max
; atau
-
- jika
features.type
==BYTES
atauSTRING
,- nilai maksimum di
features.string_stats.rank_histogram
(ketika dikonversi ke int) >feature.int_domain.max
- nilai maksimum di
- Jika
- Bidang Skema:
INT_TYPE_INT_EXPECTED
- Jenis anomali tidak terdeteksi di TFDV
INT_TYPE_NOT_INT_STRING
- Bidang Skema:
-
feature.int_domain
-
- Bidang Statistik:
-
features.type
-
features.string_stats.rank_histogram
-
- Kondisi Deteksi:
-
features.type
==BYTES
atauSTRING
dan -
features.string_stats.rank_histogram
memiliki setidaknya satu nilai yang tidak dapat diubah menjadi int
-
- Bidang Skema:
INT_TYPE_NOT_STRING
- Jenis anomali tidak terdeteksi di TFDV
INT_TYPE_SMALL_INT
- Bidang Skema:
-
feature.int_domain.min
-
- Bidang Statistik:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- Kondisi Deteksi:
- Jika
features.type
==INT
,-
features.num_stats.min
<feature.int_domain.min
; atau
-
- jika
features.type
==BYTES
atauSTRING
,- nilai minimum di
features.string_stats.rank_histogram
(ketika dikonversi ke int) <feature.int_domain.min
- nilai minimum di
- Jika
- Bidang Skema:
INT_TYPE_STRING_EXPECTED
- Jenis anomali tidak terdeteksi di TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Jenis anomali tidak terdeteksi di TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Bidang Skema:
-
feature.image_domain.minimum_supported_image_fraction
-
- Bidang Statistik:
-
features.custom_stats.rank_histogram
untuk custom_stats dengan namaimage_format_histogram
. Perhatikan bahwa statistik domain semantik harus diaktifkan agar image_format_histogram dihasilkan dan validasi ini dilakukan. Statistik domain semantik tidak dihasilkan secara default.
-
- Kondisi Deteksi:
- Pecahan nilai yang didukung jenis gambar Tensorflow untuk semua jenis gambar kurang dari
feature.image_domain.minimum_supported_image_fraction
.
- Pecahan nilai yang didukung jenis gambar Tensorflow untuk semua jenis gambar kurang dari
- Bidang Skema:
SCHEMA_MISSING_COLUMN
- Bidang Skema:
-
feature.in_environment
ataufeature.not_in_environment
atauschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
ataufeature.presence.min_fraction
-
- Kondisi Deteksi:
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, atauDEPRECATED
dan -
feature.presence.min_count
> 0 ataufeature.presence.min_fraction
> 0 dan -
feature.in_environment
== lingkungan saat ini ataufeature.not_in_environment
!= lingkungan saat ini atauschema.default_environment
!= lingkungan saat ini dan - tidak ada fitur dengan nama/jalur tertentu yang ditemukan di proto statistik
-
- Bidang Skema:
SCHEMA_NEW_COLUMN
- Kondisi Deteksi:
- ada fitur di proto statistik tetapi tidak ada fitur dengan nama/jalurnya di proto skema
- Kondisi Deteksi:
SCHEMA_TRAINING_SERVING_SKEW
- Jenis anomali tidak terdeteksi di TFDV
STRING_TYPE_NOW_FLOAT
- Jenis anomali tidak terdeteksi di TFDV
STRING_TYPE_NOW_INT
- Jenis anomali tidak terdeteksi di TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Bidang Skema:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Kondisi Deteksi:
- proto statistik kontrol (yaitu, menyajikan statistik untuk kemiringan atau statistik sebelumnya untuk penyimpangan) tersedia tetapi tidak berisi fitur yang ditentukan
- Bidang Skema:
COMPARATOR_TREATMENT_DATA_MISSING
- Jenis anomali tidak terdeteksi di TFDV
COMPARATOR_L_INFTY_HIGH
- Bidang Skema:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Bidang Statistik:
-
features.string_stats.rank_histogram
*
-
- Kondisi Deteksi:
- L-infinity norm dari vektor yang merepresentasikan perbedaan antara jumlah yang dinormalisasi dari
features.string_stats.rank_histogram
* dalam statistik kontrol (yaitu, statistik penyajian untuk kemiringan atau statistik sebelumnya untuk penyimpangan) dan statistik perlakuan (yaitu, statistik pelatihan untuk statistik condong atau arus untuk penyimpangan) >feature.skew_comparator.infinity_norm.threshold
ataufeature.drift_comparator.infinity_norm.threshold
- L-infinity norm dari vektor yang merepresentasikan perbedaan antara jumlah yang dinormalisasi dari
- Bidang Skema:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Bidang Skema:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- Bidang Statistik:
-
features.string_stats.rank_histogram
-
- Kondisi Deteksi:
- Selisih jumlah absolut yang dinormalkan dari jumlah nilai dari
features.string_stats.rank_histogram
dalam statistik kontrol (yaitu, menyajikan statistik untuk miring atau statistik sebelumnya untuk melayang) dan statistik perlakuan (yaitu, statistik pelatihan untuk miring atau statistik arus untuk melayang) melebihi feature.skew_comparator.normalized_abs_difference.threshold atau feature.drift_comparator.normalized_abs_difference.threshold. Perbedaan jumlah dinormalisasi dengan jumlah total di kedua kondisi.
- Selisih jumlah absolut yang dinormalkan dari jumlah nilai dari
- Bidang Skema:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Bidang Skema:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- Bidang Statistik:
-
features.num_stats.histograms
dari jenisSTANDARD
-
features.string_stats.rank_histogram
*
-
- Kondisi Deteksi:
- Perkiraan divergensi Jensen-Shannon yang dihitung antara statistik kontrol (yaitu, menyajikan statistik untuk kemiringan atau statistik sebelumnya untuk penyimpangan) dan statistik perlakuan (yaitu, statistik pelatihan untuk kemiringan atau statistik arus untuk penyimpangan) >
feature.skew_comparator.jensen_shannon_divergence.threshold
ataufeature.drift_comparator.jensen_shannon_divergence.threshold
. Perkiraan divergensi Jensen-Shannon dihitung berdasarkan jumlah sampel yang dinormalisasi di histogram standarfeatures.num_stats.histograms
danfeatures.string_stats.rank_histogram
*.
- Perkiraan divergensi Jensen-Shannon yang dihitung antara statistik kontrol (yaitu, menyajikan statistik untuk kemiringan atau statistik sebelumnya untuk penyimpangan) dan statistik perlakuan (yaitu, statistik pelatihan untuk kemiringan atau statistik arus untuk penyimpangan) >
- Bidang Skema:
NO_DATA_IN_SPAN
- Jenis anomali tidak terdeteksi di TFDV
SPARSE_FEATURE_MISSING_VALUE
- Bidang Skema:
-
sparse_feature.value_feature
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan "missing_value" sebagai nama dan -
missing_value
stat khusus! = 0
-
- Bidang Skema:
SPARSE_FEATURE_MISSING_INDEX
- Bidang Skema:
-
sparse_feature.index_feature
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan "missing_index" sebagai nama dan - stat kustom
missing_index
berisi nilai apa pun! = 0
-
- Bidang Skema:
SPARSE_FEATURE_LENGTH_MISMATCH
- Bidang Skema:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan nama "min_length_diff" atau "max_length_diff". - stat kustom
min_length_diff
ataumax_length_diff
berisi nilai apa pun! = 0
-
- Bidang Skema:
SPARSE_FEATURE_NAME_COLLISION
- Bidang Skema:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Kondisi Deteksi:
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, atauDEPRECATED
, dan -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, atauDEPRECATED
, dan -
sparse_feature.name
==feature.name
-
- Bidang Skema:
SEMANTIC_DOMAIN_UPDATE
- Bidang Skema:
-
feature.domain_info
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan "domain_info" sebagai nama dan -
feature.domain_info
belum diatur dalam skema dan - ada satu stat khusus
domain_info
untuk fitur tersebut
-
- Bidang Skema:
COMPARATOR_LOW_NUM_EXAMPLES
- Bidang Skema:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- Bidang Statistik:
-
num_examples
*
-
- Kondisi Deteksi:
-
num_examples
* > 0 dan - proto statistik sebelumnya tersedia dan
-
num_examples
* / statistik sebelumnyanum_examples
* <min_fraction_threshold
pembanding
-
- Bidang Skema:
COMPARATOR_HIGH_NUM_EXAMPLES
- Bidang Skema:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- Bidang Statistik:
-
num_examples
*
-
- Kondisi Deteksi:
-
num_examples
* > 0 dan - proto statistik sebelumnya tersedia dan
-
num_examples
* / statistik sebelumnyanum_examples
* > pembandingmax_fraction_threshold
-
- Bidang Skema:
DATASET_LOW_NUM_EXAMPLES
- Bidang Skema:
-
schema.dataset_constraints.min_examples_count
-
- Bidang Statistik:
-
num_examples
*
-
- Kondisi Deteksi:
-
num_examples
* <dataset_constraints.min_examples_count
-
- Bidang Skema:
DATASET_HIGH_NUM_EXAMPLES
- Bidang Skema:
-
schema.dataset_constraints.max_examples_count
-
- Bidang Statistik:
-
num_examples
*
-
- Kondisi Deteksi:
-
num_examples
* >dataset_constraints.max_examples_count
-
- Bidang Skema:
WEIGHTED_FEATURE_NAME_COLLISION
- Bidang Skema:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Kondisi Deteksi:
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, atauDEPRECATED
dan keduanya- jika
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, atauDEPRECATED
,-
weighted_feature.name
==feature.name
; atau
-
- jika
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, atauDEPRECATED
,-
weighted_feature.name
==sparse_feature.name
-
- jika
-
- Bidang Skema:
WEIGHTED_FEATURE_MISSING_VALUE
- Bidang Skema:
-
weighted_feature.feature
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan "missing_value" sebagai nama dan -
missing_value
stat khusus! = 0
-
- Bidang Skema:
WEIGHTED_FEATURE_MISSING_WEIGHT
- Bidang Skema:
-
weighted_feature.weight_feature
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan "missing_weight" sebagai nama dan - statistik kustom
missing_weight
!= 0
-
- Bidang Skema:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Bidang Skema:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- Bidang Statistik:
-
features.custom_stats
-
- Kondisi Deteksi:
-
features.custom_stats
dengan "min_weighted_length_diff" atau "max_weight_length_diff" sebagai nama, dan - statistik khusus
min_weight_length_diff
ataumax_weight_length_diff
!= 0
-
- Bidang Skema:
VALUE_NESTEDNESS_MISMATCH
- Bidang Skema:
-
feature.value_count
-
feature.value_counts
-
- Bidang Statistik:
-
features.common_stats.presence_and_valency_stats
-
- Kondisi Deteksi:
-
feature.value_count
ditentukan, dan adapresence_and_valency_stats
berulang dari fitur tersebut (yang menunjukkan tingkat nestedness yang lebih besar dari satu) dan -
feature.value_counts
ditentukan, dan frekuensipresence_and_valency_stats
fitur diulang tidak sesuai dengan frekuensivalue_count
diulang dalamfeature.value_counts
-
- Bidang Skema:
DOMAIN_INVALID_FOR_TYPE
- Bidang Skema:
-
feature.type
-
feature.domain_info
-
- Bidang Statistik:
-
features.type
-
- Kondisi Deteksi:
- Jika
features.type
==BYTES
,-
feature.domain_info
adalah tipe yang tidak kompatibel; atau
-
- jika
features.type
!=BYTES
,-
feature.domain_info
tidak cocok denganfeature.type
(misalnya,int_domain
ditentukan, tetapitype
fiturnya adalahFLOAT
)
-
- Jika
- Bidang Skema:
FEATURE_MISSING_NAME
- Bidang Skema:
-
feature.name
-
- Kondisi Deteksi:
-
feature.name
tidak ditentukan
-
- Bidang Skema:
FEATURE_MISSING_TYPE
- Bidang Skema:
-
feature.type
-
- Kondisi Deteksi:
-
feature.type
tidak ditentukan
-
- Bidang Skema:
INVALID_SCHEMA_SPECIFICATION
- Bidang Skema:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- Kondisi Deteksi:
-
feature.presence.min_fraction
< 0,0 atau > 1,0, atau -
feature.value_count.min
< 0 atau >feature.value_count.max
, atau - domain bool, int, float, struct, atau semantik ditentukan untuk fitur dan
feature.distribution_constraints
juga ditentukan untuk fitur tersebut, atau -
feature.distribution_constraints
ditentukan untuk sebuah fitur, tetapi baik domain tingkat skema maupunfeature.string_domain
tidak ditentukan untuk fitur tersebut
-
- Bidang Skema:
INVALID_DOMAIN_SPECIFICATION
- Bidang Skema:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- Kondisi Deteksi:
- Jenis
feature.domain_info
tidak diketahui ditentukan atau -
feature.domain
ditentukan, tetapi tidak ada domain yang cocok yang ditentukan di tingkat skema, atau - jika
feature.bool_domain
,feature.bool_domain.true_value
, danfeature.bool_domain.false_value
ditentukan,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
, atau
-
- jika
feature.string_domain
ditentukan,- memiliki duplikat
feature.string_domain.values
atau -
feature.string_domain
melebihi ukuran maksimum
- memiliki duplikat
- Jenis
- Bidang Skema:
UNEXPECTED_DATA_TYPE
- Bidang Skema:
-
feature.type
-
- Bidang Statistik:
-
features.type
-
- Kondisi Deteksi:
-
features.type
bukan tipe yang ditentukan dalamfeature.type
-
- Bidang Skema:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Bidang Skema:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- Bidang Statistik:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- Kondisi Deteksi:
-
min_per_sequence
>per_sequence_min_frequency
-
- Bidang Skema:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Bidang Skema:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- Bidang Statistik:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- Kondisi Deteksi:
-
max_per_sequence
<per_sequence_max_frequency
-
- Bidang Skema:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Bidang Skema:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- Bidang Statistik:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Kondisi Deteksi:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- Bidang Skema:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Bidang Skema:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- Bidang Statistik:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Kondisi Deteksi:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- Bidang Skema:
FEATURE_COVERAGE_TOO_LOW
- Bidang Skema:
-
feature.natural_language_domain.coverage.min_coverage
-
- Bidang Statistik:
-
features.custom_stats.nl_statistics.feature_coverage
-
- Kondisi Deteksi:
-
feature_coverage
<coverage.min_coverage
-
- Bidang Skema:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Bidang Skema:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- Bidang Statistik:
-
features.custom_stats.nl_statistics.avg_token_length
-
- Kondisi Deteksi:
-
avg_token_length
<min_avg_token_length
-
- Bidang Skema:
NLP_WRONG_LOCATION
- Jenis anomali tidak terdeteksi di TFDV
EMBEDDING_SHAPE_INVALID
- Jenis anomali tidak terdeteksi di TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Bidang Skema:
-
feature.image_domain.max_image_byte_size
-
- Bidang Statistik:
-
features.bytes_stats.max_num_bytes_int
-
- Kondisi Deteksi:
-
max_num_bytes_int
>max_image_byte_size
-
- Bidang Skema:
INVALID_FEATURE_SHAPE
- Bidang Skema:
-
feature.shape
-
- Bidang Statistik:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- Kondisi Deteksi:
-
feature.shape
ditentukan, dan keduanya- fitur tersebut mungkin hilang (
num_missing
!= 0) di beberapa tingkat sarang atau - fitur mungkin memiliki jumlah nilai variabel (
min_num_values
!=max_num_values
) di beberapa tingkat sarang atau - bentuk yang ditentukan tidak kompatibel dengan statistik penghitungan nilai fitur. Misalnya, bentuk
[16]
kompatibel dengan (min_num_values
==max_num_values
==[2, 2, 4]
(untuk fitur bertingkat 3))
- fitur tersebut mungkin hilang (
-
- Bidang Skema:
STATS_NOT_AVAILBLE
- Anomali terjadi ketika statistik yang diperlukan untuk memvalidasi kendala tidak ada.
DERIVED_FEATURE_BAD_LIFECYCLE
- Bidang Skema:
-
feature.lifecycle_stage
-
- Bidang Statistik:
-
features.validation_derived_source
-
- Kondisi Deteksi:
-
feature.lifecycle_stage
bukan salah satu dariDERIVED
atauDISABLED
, danfeatures.validation_derived_source
ada, menunjukkan bahwa ini adalah fitur turunan.
-
- Bidang Skema:
DERIVED_FEATURE_INVALID_SOURCE
- Bidang Skema:
-
feature.validation_derived_source
-
- Bidang Statistik:
-
features.validation_derived_source
-
- Kondisi Deteksi:
-
features.validation_derived_source
ada untuk sebuah fitur, tetapifeature.validation_derived_source
yang sesuai tidak.
-
- Bidang Skema:
* Jika statistik berbobot tersedia untuk bidang ini, statistik tersebut akan digunakan sebagai pengganti statistik tidak berbobot.