Referensi Anomali Validasi Data TensorFlow

TFDV memeriksa anomali dengan membandingkan skema dan proto statistik. Bagan berikut mencantumkan jenis anomali yang dapat dideteksi TFDV, bidang skema dan statistik yang digunakan untuk mendeteksi setiap jenis anomali, dan kondisi di mana setiap jenis anomali terdeteksi.

  • BOOL_TYPE_BIG_INT

    • Bidang Skema:
      • feature.bool_domain
    • Bidang Statistik:
      • features.num_stats.max
      • features.type
    • Kondisi Deteksi:
      • feature.bool_domain ditentukan dan
      • features.type == INT dan
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Jenis anomali tidak terdeteksi di TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Jenis anomali tidak terdeteksi di TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • BOOL_TYPE_SMALL_INT

    • Bidang Skema:
      • feature.bool_domain
    • Bidang Statistik:
      • features.num_stats.min
      • features.type
    • Kondisi Deteksi:
      • features.type == INT dan
      • feature.bool_domain ditentukan dan
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Jenis anomali tidak terdeteksi di TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Bidang Skema:
      • feature.bool_domain
    • Bidang Statistik:
      • features.string_stats.rank_histogram *
    • Kondisi Deteksi:
      • features.type == STRING dan
      • feature.bool_domain ditentukan dan
      • setidaknya satu nilai di rank_histogram * bukan feature.bool_domain.true_value atau feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Bidang Skema:
      • feature.bool_domain
    • Bidang Statistik:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • Kondisi Deteksi:
      • features.type == FLOAT dan
      • feature.bool_domain ditentukan dan keduanya
        • ( features.num_stats.min != 0 atau features.num_stats.min != 1) atau
        • ( features.num_stats.max != 0 atau features.num_stats.max != 1) atau
        • features.num_stats.histograms.num_nan > 0 atau
        • ( features.num_stats.histograms.buckets.low_value != 0 atau features.num_stats.histograms.buckets.high_value != 1) dan features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • Bidang Skema:
      • feature.bool_domain
    • Bidang Statistik:
      • features.type
    • Kondisi Deteksi:
      • Jika features.type == INT atau FLOAT ,
        • feature.bool_domain ditentukan dan
        • feature.bool_domain.true_value atau feature.bool_domain.false_value ditentukan, atau
      • jika features.type == STRING ,
        • feature.bool_domain ditentukan dan
        • feature.bool_domain.true_value dan feature.bool_domain.false_value tidak ditentukan
  • ENUM_TYPE_BYTES_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Bidang Statistik:
      • features.string_stats.invalid_utf8_count
    • Kondisi Deteksi:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Bidang Skema:
      • string_domain dan feature.domain ; atau feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Bidang Statistik:
      • features.string_stats.rank_histogram *
    • Kondisi Deteksi:
      • Entah (jumlah nilai dalam rank_histogram * yang tidak ada dalam domain / jumlah total nilai) > (1 - feature.distribution_constraints.min_domain_mass ) atau
      • feature.distribution_constraints.min_domain_mass == 1.0 dan ada nilai di histogram yang tidak ada di domain
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Bidang Skema:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Bidang Statistik:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • Kondisi Deteksi:
      • Jika feature.value_count.max ditentukan
        • features.common_stats.max_num_values ​​> feature.value_count.max ; atau
      • jika feature.value_counts ditentukan
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​pada tingkat nestedness tertentu
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Bidang Skema:
      • feature.presence.min_fraction
    • Bidang Statistik:
      • features.common_stats.num_non_missing *
      • num_examples *
    • Kondisi Deteksi:
      • feature.presence.min_fraction ditentukan dan ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction atau
      • feature.presence.min_fraction == 1.0 dan common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Bidang Skema:
      • feature.presence.min_count
    • Bidang Statistik:
      • features.common_stats.num_non_missing *
    • Kondisi Deteksi:
      • feature.presence.min_count ditentukan dan keduanya
        • features.common_stats.num_non_missing * == 0 atau
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Bidang Skema:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Bidang Statistik:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • Kondisi Deteksi:
      • Jika feature.value_count.min ditentukan
        • features.common_stats.min_num_values ​​< feature.value_count.min ; atau
      • jika feature.value_counts ditentukan
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min pada tingkat nestedness tertentu
  • FEATURE_TYPE_NOT_PRESENT

    • Bidang Skema:
      • feature.in_environment atau feature.not_in_environment atau schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count atau feature.presence.min_fraction
    • Bidang Statistik:
      • features.common_stats.num_non_missing *
    • Kondisi Deteksi:
      • feature.lifecycle_stage tidak dalam [ PLANNED , ALPHA , DEBUG , DEPRECATED ] dan
      • common_stats.num_non_missing * == 0 dan
      • ( feature.presence.min_count > 0 atau feature.presence.min_fraction > 0) dan salah satunya
        • feature.in_environment == lingkungan saat ini atau
        • feature.not_in_environment != lingkungan saat ini atau
        • schema.default_environment != lingkungan saat ini
  • FEATURE_TYPE_NO_VALUES

    • Jenis anomali tidak terdeteksi di TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Jenis anomali tidak terdeteksi di TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Bidang Skema:
      • feature.unique_constraints.max
    • Bidang Statistik:
      • features.string_stats.unique
    • Kondisi Deteksi:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Bidang Skema:
      • feature.unique_constraints.min
    • Bidang Statistik:
      • features.string_stats.unique
    • Kondisi Deteksi:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Bidang Skema:
      • feature.unique_constraints
    • Bidang Statistik:
      • features.string_stats.unique
    • Kondisi Deteksi:
      • feature.unique_constraints ditentukan tetapi tidak ada features.string_stats.unique yang ada (seperti kasus di mana fitur tersebut bukan string atau kategori)
  • FLOAT_TYPE_BIG_FLOAT

    • Bidang Skema:
      • feature.float_domain.max
    • Bidang Statistik:
      • features.type
      • features.num_stats.max atau features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • Jika features.type == FLOAT ,
        • features.num_stats.max > feature.float_domain.max ; atau
      • jika features.type == BYTES atau STRING ,
        • nilai maksimum dalam features.string_stats.rank_histogram (saat dikonversi ke float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Jenis anomali tidak terdeteksi di TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Bidang Skema:
      • feature.float_domain.min
    • Bidang Statistik:
      • features.type
      • features.num_stats.min atau features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • Jika features.type == FLOAT ,
        • features.num_stats.min < feature.float_domain.min ; atau
      • jika features.type == BYTES atau STRING ,
        • nilai minimum di features.string_stats.rank_histogram (saat dikonversi ke float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Bidang Skema:
      • feature.float_domain
    • Bidang Statistik:
      • features.type
      • features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • features.type == BYTES atau STRING dan
      • features.string_stats.rank_histogram memiliki setidaknya satu nilai yang tidak dapat diubah menjadi float
  • FLOAT_TYPE_NON_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Jenis anomali tidak terdeteksi di TFDV
  • FLOAT_TYPE_HAS_NAN

    • Bidang Skema:
      • feature.float_domain.disallow_nan
    • Bidang Statistik:
      • features.type
      • features.num_stats.histograms.num_nan
    • Kondisi Deteksi:
      • float_domain.disallow_nan benar dan
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Bidang Skema:
      • feature.float_domain.disallow_inf
    • Bidang Statistik:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • Kondisi Deteksi:
      • features.type == FLOAT
      • float_domain.disallow_inf benar dan salah satunya
        • features.num_stats.min == inf/-inf atau
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Bidang Skema:
      • feature.int_domain.max
    • Bidang Statistik:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • Jika features.type == INT ,
        • features.num_stats.max > feature.int_domain.max ; atau
      • jika features.type == BYTES atau STRING ,
        • nilai maksimum di features.string_stats.rank_histogram (ketika dikonversi ke int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Jenis anomali tidak terdeteksi di TFDV
  • INT_TYPE_NOT_INT_STRING

    • Bidang Skema:
      • feature.int_domain
    • Bidang Statistik:
      • features.type
      • features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • features.type == BYTES atau STRING dan
      • features.string_stats.rank_histogram memiliki setidaknya satu nilai yang tidak dapat diubah menjadi int
  • INT_TYPE_NOT_STRING

    • Jenis anomali tidak terdeteksi di TFDV
  • INT_TYPE_SMALL_INT

    • Bidang Skema:
      • feature.int_domain.min
    • Bidang Statistik:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • Jika features.type == INT ,
        • features.num_stats.min < feature.int_domain.min ; atau
      • jika features.type == BYTES atau STRING ,
        • nilai minimum di features.string_stats.rank_histogram (ketika dikonversi ke int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Jenis anomali tidak terdeteksi di TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Jenis anomali tidak terdeteksi di TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Bidang Skema:
      • feature.image_domain.minimum_supported_image_fraction
    • Bidang Statistik:
      • features.custom_stats.rank_histogram untuk custom_stats dengan nama image_format_histogram . Perhatikan bahwa statistik domain semantik harus diaktifkan agar image_format_histogram dihasilkan dan validasi ini dilakukan. Statistik domain semantik tidak dihasilkan secara default.
    • Kondisi Deteksi:
      • Pecahan nilai yang didukung jenis gambar Tensorflow untuk semua jenis gambar kurang dari feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Bidang Skema:
      • feature.in_environment atau feature.not_in_environment atau schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count atau feature.presence.min_fraction
    • Kondisi Deteksi:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , atau DEPRECATED dan
      • feature.presence.min_count > 0 atau feature.presence.min_fraction > 0 dan
      • feature.in_environment == lingkungan saat ini atau feature.not_in_environment != lingkungan saat ini atau schema.default_environment != lingkungan saat ini dan
      • tidak ada fitur dengan nama/jalur tertentu yang ditemukan di proto statistik
  • SCHEMA_NEW_COLUMN

    • Kondisi Deteksi:
      • ada fitur di proto statistik tetapi tidak ada fitur dengan nama/jalurnya di proto skema
  • SCHEMA_TRAINING_SERVING_SKEW

    • Jenis anomali tidak terdeteksi di TFDV
  • STRING_TYPE_NOW_FLOAT

    • Jenis anomali tidak terdeteksi di TFDV
  • STRING_TYPE_NOW_INT

    • Jenis anomali tidak terdeteksi di TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Bidang Skema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Kondisi Deteksi:
      • proto statistik kontrol (yaitu, menyajikan statistik untuk kemiringan atau statistik sebelumnya untuk penyimpangan) tersedia tetapi tidak berisi fitur yang ditentukan
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Jenis anomali tidak terdeteksi di TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Bidang Skema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Bidang Statistik:
      • features.string_stats.rank_histogram *
    • Kondisi Deteksi:
      • L-infinity norm dari vektor yang merepresentasikan perbedaan antara jumlah yang dinormalisasi dari features.string_stats.rank_histogram * dalam statistik kontrol (yaitu, statistik penyajian untuk kemiringan atau statistik sebelumnya untuk penyimpangan) dan statistik perlakuan (yaitu, statistik pelatihan untuk statistik condong atau arus untuk penyimpangan) > feature.skew_comparator.infinity_norm.threshold atau feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • Bidang Skema:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • Bidang Statistik:
      • features.string_stats.rank_histogram
    • Kondisi Deteksi:
      • Selisih jumlah absolut yang dinormalkan dari jumlah nilai dari features.string_stats.rank_histogram dalam statistik kontrol (yaitu, menyajikan statistik untuk miring atau statistik sebelumnya untuk melayang) dan statistik perlakuan (yaitu, statistik pelatihan untuk miring atau statistik arus untuk melayang) melebihi feature.skew_comparator.normalized_abs_difference.threshold atau feature.drift_comparator.normalized_abs_difference.threshold. Perbedaan jumlah dinormalisasi dengan jumlah total di kedua kondisi.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Bidang Skema:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Bidang Statistik:
      • features.num_stats.histograms dari jenis STANDARD
      • features.string_stats.rank_histogram *
    • Kondisi Deteksi:
      • Perkiraan divergensi Jensen-Shannon yang dihitung antara statistik kontrol (yaitu, menyajikan statistik untuk kemiringan atau statistik sebelumnya untuk penyimpangan) dan statistik perlakuan (yaitu, statistik pelatihan untuk kemiringan atau statistik arus untuk penyimpangan) > feature.skew_comparator.jensen_shannon_divergence.threshold atau feature.drift_comparator.jensen_shannon_divergence.threshold . Perkiraan divergensi Jensen-Shannon dihitung berdasarkan jumlah sampel yang dinormalisasi di histogram standar features.num_stats.histograms dan features.string_stats.rank_histogram *.
  • NO_DATA_IN_SPAN

    • Jenis anomali tidak terdeteksi di TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Bidang Skema:
      • sparse_feature.value_feature
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan "missing_value" sebagai nama dan
      • missing_value stat khusus! = 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Bidang Skema:
      • sparse_feature.index_feature
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan "missing_index" sebagai nama dan
      • stat kustom missing_index berisi nilai apa pun! = 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Bidang Skema:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan nama "min_length_diff" atau "max_length_diff".
      • stat kustom min_length_diff atau max_length_diff berisi nilai apa pun! = 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Bidang Skema:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Kondisi Deteksi:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , atau DEPRECATED , dan
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , atau DEPRECATED , dan
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Bidang Skema:
      • feature.domain_info
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan "domain_info" sebagai nama dan
      • feature.domain_info belum diatur dalam skema dan
      • ada satu stat khusus domain_info untuk fitur tersebut
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Bidang Skema:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Bidang Statistik:
      • num_examples *
    • Kondisi Deteksi:
      • num_examples * > 0 dan
      • proto statistik sebelumnya tersedia dan
      • num_examples * / statistik sebelumnya num_examples * < min_fraction_threshold pembanding
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Bidang Skema:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Bidang Statistik:
      • num_examples *
    • Kondisi Deteksi:
      • num_examples * > 0 dan
      • proto statistik sebelumnya tersedia dan
      • num_examples * / statistik sebelumnya num_examples * > pembanding max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Bidang Skema:
      • schema.dataset_constraints.min_examples_count
    • Bidang Statistik:
      • num_examples *
    • Kondisi Deteksi:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Bidang Skema:
      • schema.dataset_constraints.max_examples_count
    • Bidang Statistik:
      • num_examples *
    • Kondisi Deteksi:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Bidang Skema:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Kondisi Deteksi:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , atau DEPRECATED dan keduanya
        • jika feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , atau DEPRECATED ,
          • weighted_feature.name == feature.name ; atau
        • jika sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , atau DEPRECATED ,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Bidang Skema:
      • weighted_feature.feature
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan "missing_value" sebagai nama dan
      • missing_value stat khusus! = 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Bidang Skema:
      • weighted_feature.weight_feature
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan "missing_weight" sebagai nama dan
      • statistik kustom missing_weight != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Bidang Skema:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Bidang Statistik:
      • features.custom_stats
    • Kondisi Deteksi:
      • features.custom_stats dengan "min_weighted_length_diff" atau "max_weight_length_diff" sebagai nama, dan
      • statistik khusus min_weight_length_diff atau max_weight_length_diff != 0
  • VALUE_NESTEDNESS_MISMATCH

    • Bidang Skema:
      • feature.value_count
      • feature.value_counts
    • Bidang Statistik:
      • features.common_stats.presence_and_valency_stats
    • Kondisi Deteksi:
      • feature.value_count ditentukan, dan ada presence_and_valency_stats berulang dari fitur tersebut (yang menunjukkan tingkat nestedness yang lebih besar dari satu) dan
      • feature.value_counts ditentukan, dan frekuensi presence_and_valency_stats fitur diulang tidak sesuai dengan frekuensi value_count diulang dalam feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Bidang Skema:
      • feature.type
      • feature.domain_info
    • Bidang Statistik:
      • features.type
    • Kondisi Deteksi:
      • Jika features.type == BYTES ,
        • feature.domain_info adalah tipe yang tidak kompatibel; atau
      • jika features.type != BYTES ,
        • feature.domain_info tidak cocok dengan feature.type (misalnya, int_domain ditentukan, tetapi type fiturnya adalah FLOAT )
  • FEATURE_MISSING_NAME

    • Bidang Skema:
      • feature.name
    • Kondisi Deteksi:
      • feature.name tidak ditentukan
  • FEATURE_MISSING_TYPE

    • Bidang Skema:
      • feature.type
    • Kondisi Deteksi:
      • feature.type tidak ditentukan
  • INVALID_SCHEMA_SPECIFICATION

    • Bidang Skema:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Kondisi Deteksi:
      • feature.presence.min_fraction < 0,0 atau > 1,0, atau
      • feature.value_count.min < 0 atau > feature.value_count.max , atau
      • domain bool, int, float, struct, atau semantik ditentukan untuk fitur dan feature.distribution_constraints juga ditentukan untuk fitur tersebut, atau
      • feature.distribution_constraints ditentukan untuk sebuah fitur, tetapi baik domain tingkat skema maupun feature.string_domain tidak ditentukan untuk fitur tersebut
  • INVALID_DOMAIN_SPECIFICATION

    • Bidang Skema:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Kondisi Deteksi:
      • Jenis feature.domain_info tidak diketahui ditentukan atau
      • feature.domain ditentukan, tetapi tidak ada domain yang cocok yang ditentukan di tingkat skema, atau
      • jika feature.bool_domain , feature.bool_domain.true_value , dan feature.bool_domain.false_value ditentukan,
        • feature.bool_domain.true_value == feature.bool_domain.false_value , atau
      • jika feature.string_domain ditentukan,
        • memiliki duplikat feature.string_domain.values ​​atau
        • feature.string_domain melebihi ukuran maksimum
  • UNEXPECTED_DATA_TYPE

    • Bidang Skema:
      • feature.type
    • Bidang Statistik:
      • features.type
    • Kondisi Deteksi:
      • features.type bukan tipe yang ditentukan dalam feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Bidang Skema:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Bidang Statistik:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Kondisi Deteksi:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Bidang Skema:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Bidang Statistik:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Kondisi Deteksi:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Bidang Skema:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Bidang Statistik:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Kondisi Deteksi:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Bidang Skema:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Bidang Statistik:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Kondisi Deteksi:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Bidang Skema:
      • feature.natural_language_domain.coverage.min_coverage
    • Bidang Statistik:
      • features.custom_stats.nl_statistics.feature_coverage
    • Kondisi Deteksi:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Bidang Skema:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Bidang Statistik:
      • features.custom_stats.nl_statistics.avg_token_length
    • Kondisi Deteksi:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Jenis anomali tidak terdeteksi di TFDV
  • EMBEDDING_SHAPE_INVALID

    • Jenis anomali tidak terdeteksi di TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Bidang Skema:
      • feature.image_domain.max_image_byte_size
    • Bidang Statistik:
      • features.bytes_stats.max_num_bytes_int
    • Kondisi Deteksi:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Bidang Skema:
      • feature.shape
    • Bidang Statistik:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • Kondisi Deteksi:
      • feature.shape ditentukan, dan keduanya
        • fitur tersebut mungkin hilang ( num_missing != 0) di beberapa tingkat sarang atau
        • fitur mungkin memiliki jumlah nilai variabel ( min_num_values ​​!= max_num_values ​​) di beberapa tingkat sarang atau
        • bentuk yang ditentukan tidak kompatibel dengan statistik penghitungan nilai fitur. Misalnya, bentuk [16] kompatibel dengan ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (untuk fitur bertingkat 3))
  • STATS_NOT_AVAILBLE

    • Anomali terjadi ketika statistik yang diperlukan untuk memvalidasi kendala tidak ada.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Bidang Skema:
      • feature.lifecycle_stage
    • Bidang Statistik:
      • features.validation_derived_source
    • Kondisi Deteksi:
      • feature.lifecycle_stage bukan salah satu dari DERIVED atau DISABLED , dan features.validation_derived_source ada, menunjukkan bahwa ini adalah fitur turunan.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Bidang Skema:
      • feature.validation_derived_source
    • Bidang Statistik:
      • features.validation_derived_source
    • Kondisi Deteksi:
      • features.validation_derived_source ada untuk sebuah fitur, tetapi feature.validation_derived_source yang sesuai tidak.

* Jika statistik berbobot tersedia untuk bidang ini, statistik tersebut akan digunakan sebagai pengganti statistik tidak berbobot.