Tham chiếu về dị thường xác thực dữ liệu TensorFlow

TFDV kiểm tra sự bất thường bằng cách so sánh (các) sơ đồ lược đồ và thống kê. Biểu đồ sau đây liệt kê các loại dị thường mà TFDV có thể phát hiện, các trường lược đồ và thống kê được sử dụng để phát hiện từng loại dị thường và (các) điều kiện mà mỗi loại dị thường được phát hiện.

  • BOOL_TYPE_BIG_INT

    • Trường lược đồ:
      • feature.bool_domain
    • Các trường thống kê:
      • features.num_stats.max
      • features.type
    • Điều kiện phát hiện:
      • feature.bool_domain được chỉ định và
      • features.type == INT
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Loại bất thường không được phát hiện trong TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Loại bất thường không được phát hiện trong TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • BOOL_TYPE_SMALL_INT

    • Trường lược đồ:
      • feature.bool_domain
    • Các trường thống kê:
      • features.num_stats.min
      • features.type
    • Điều kiện phát hiện:
      • features.type == INT
      • feature.bool_domain được chỉ định và
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Loại bất thường không được phát hiện trong TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Trường lược đồ:
      • feature.bool_domain
    • Các trường thống kê:
      • features.string_stats.rank_histogram *
    • Điều kiện phát hiện:
      • features.type == STRING
      • feature.bool_domain được chỉ định và
      • ít nhất một giá trị trong rank_histogram * không phải là feature.bool_domain.true_value hoặc feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Trường lược đồ:
      • feature.bool_domain
    • Các trường thống kê:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • Điều kiện phát hiện:
      • features.type == FLOAT
      • feature.bool_domain được chỉ định và một trong hai
        • ( features.num_stats.min != 0 hoặc features.num_stats.min != 1) hoặc
        • ( features.num_stats.max != 0 hoặc features.num_stats.max != 1) hoặc
        • features.num_stats.histograms.num_nan > 0 hoặc
        • ( features.num_stats.histograms.buckets.low_value != 0 hoặc features.num_stats.histograms.buckets.high_value != 1) và features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • Trường lược đồ:
      • feature.bool_domain
    • Các trường thống kê:
      • features.type
    • Điều kiện phát hiện:
      • Nếu features.type == INT hoặc FLOAT ,
        • feature.bool_domain được chỉ định và
        • feature.bool_domain.true_value hoặc feature.bool_domain.false_value được chỉ định hoặc
      • nếu features.type == STRING ,
        • feature.bool_domain được chỉ định và
        • feature.bool_domain.true_valuefeature.bool_domain.false_value không được chỉ định
  • ENUM_TYPE_BYTES_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Các trường thống kê:
      • features.string_stats.invalid_utf8_count
    • Điều kiện phát hiện:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Trường lược đồ:
      • string_domainfeature.domain ; hoặc feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Các trường thống kê:
      • features.string_stats.rank_histogram *
    • Điều kiện phát hiện:
      • Hoặc (số lượng giá trị trong rank_histogram * không có trong miền / tổng số giá trị) > (1 - feature.distribution_constraints.min_domain_mass ) hoặc
      • feature.distribution_constraints.min_domain_mass == 1.0 và có các giá trị trong biểu đồ không có trong miền
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Trường lược đồ:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Các trường thống kê:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • Điều kiện phát hiện:
      • Nếu feature.value_count.max được chỉ định
        • features.common_stats.max_num_values ​​> feature.value_count.max ; hoặc
      • nếu feature.value_counts được chỉ định
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​ở mức độ lồng nhau nhất định
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Trường lược đồ:
      • feature.presence.min_fraction
    • Các trường thống kê:
      • features.common_stats.num_non_missing *
      • num_examples *
    • Điều kiện phát hiện:
      • feature.presence.min_fraction được chỉ định và ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction hoặc
      • feature.presence.min_fraction == 1.0 và common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Trường lược đồ:
      • feature.presence.min_count
    • Các trường thống kê:
      • features.common_stats.num_non_missing *
    • Điều kiện phát hiện:
      • feature.presence.min_count được chỉ định và một trong hai
        • features.common_stats.num_non_missing * == 0 hoặc
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Trường lược đồ:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Các trường thống kê:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • Điều kiện phát hiện:
      • Nếu feature.value_count.min được chỉ định
        • features.common_stats.min_num_values ​​< feature.value_count.min ; hoặc
      • nếu feature.value_counts được chỉ định
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min ở mức lồng nhau nhất định
  • FEATURE_TYPE_NOT_PRESENT

    • Trường lược đồ:
      • feature.in_environment hoặc feature.not_in_environment hoặc schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count hoặc feature.presence.min_fraction
    • Các trường thống kê:
      • features.common_stats.num_non_missing *
    • Điều kiện phát hiện:
      • feature.lifecycle_stage không có trong [ PLANNED , ALPHA , DEBUG , DEPRECATED ] và
      • common_stats.num_non_missing * == 0 và
      • ( feature.presence.min_count > 0 hoặc feature.presence.min_fraction > 0) và một trong hai
        • feature.in_environment == môi trường hiện tại hoặc
        • feature.not_in_environment != môi trường hiện tại hoặc
        • schema.default_environment != môi trường hiện tại
  • FEATURE_TYPE_NO_VALUES

    • Loại bất thường không được phát hiện trong TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Loại bất thường không được phát hiện trong TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Trường lược đồ:
      • feature.unique_constraints.max
    • Các trường thống kê:
      • features.string_stats.unique
    • Điều kiện phát hiện:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Trường lược đồ:
      • feature.unique_constraints.min
    • Các trường thống kê:
      • features.string_stats.unique
    • Điều kiện phát hiện:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Trường lược đồ:
      • feature.unique_constraints
    • Các trường thống kê:
      • features.string_stats.unique
    • Điều kiện phát hiện:
      • feature.unique_constraints được chỉ định nhưng không có features.string_stats.unique (như trường hợp đối tượng không phải là một chuỗi hoặc phân loại)
  • FLOAT_TYPE_BIG_FLOAT

    • Trường lược đồ:
      • feature.float_domain.max
    • Các trường thống kê:
      • features.type
      • features.num_stats.max hoặc features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • Nếu features.type == FLOAT ,
        • features.num_stats.max > feature.float_domain.max ; hoặc
      • nếu features.type == BYTES hoặc STRING ,
        • giá trị tối đa trong features.string_stats.rank_histogram (khi được chuyển đổi thành float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Loại bất thường không được phát hiện trong TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Trường lược đồ:
      • feature.float_domain.min
    • Các trường thống kê:
      • features.type
      • features.num_stats.min hoặc features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • Nếu features.type == FLOAT ,
        • features.num_stats.min < feature.float_domain.min ; hoặc
      • nếu features.type == BYTES hoặc STRING ,
        • giá trị tối thiểu trong features.string_stats.rank_histogram (khi được chuyển đổi thành float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Trường lược đồ:
      • feature.float_domain
    • Các trường thống kê:
      • features.type
      • features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • features.type == BYTES hoặc STRING
      • features.string_stats.rank_histogram có ít nhất một giá trị không thể chuyển đổi thành float
  • FLOAT_TYPE_NON_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Loại bất thường không được phát hiện trong TFDV
  • FLOAT_TYPE_HAS_NAN

    • Trường lược đồ:
      • feature.float_domain.disallow_nan
    • Các trường thống kê:
      • features.type
      • features.num_stats.histograms.num_nan
    • Điều kiện phát hiện:
      • float_domain.disallow_nan là đúng và
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Trường lược đồ:
      • feature.float_domain.disallow_inf
    • Các trường thống kê:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • Điều kiện phát hiện:
      • features.type == FLOAT
      • float_domain.disallow_inf là đúng và một trong hai
        • features.num_stats.min == inf/-inf hoặc
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Trường lược đồ:
      • feature.int_domain.max
    • Các trường thống kê:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • Nếu features.type == INT ,
        • features.num_stats.max > feature.int_domain.max ; hoặc
      • nếu features.type == BYTES hoặc STRING ,
        • giá trị tối đa trong features.string_stats.rank_histogram (khi được chuyển đổi thành int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Loại bất thường không được phát hiện trong TFDV
  • INT_TYPE_NOT_INT_STRING

    • Trường lược đồ:
      • feature.int_domain
    • Các trường thống kê:
      • features.type
      • features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • features.type == BYTES hoặc STRING
      • features.string_stats.rank_histogram có ít nhất một giá trị không thể chuyển đổi thành int
  • INT_TYPE_NOT_STRING

    • Loại bất thường không được phát hiện trong TFDV
  • INT_TYPE_SMALL_INT

    • Trường lược đồ:
      • feature.int_domain.min
    • Các trường thống kê:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • Nếu features.type == INT ,
        • features.num_stats.min < feature.int_domain.min ; hoặc
      • nếu features.type == BYTES hoặc STRING ,
        • giá trị tối thiểu trong features.string_stats.rank_histogram (khi được chuyển đổi thành int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Loại bất thường không được phát hiện trong TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Loại bất thường không được phát hiện trong TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Trường lược đồ:
      • feature.image_domain.minimum_supported_image_fraction
    • Các trường thống kê:
      • features.custom_stats.rank_histogram cho custom_stats có tên image_format_histogram . Lưu ý rằng số liệu thống kê miền ngữ nghĩa phải được bật để image_format_histogram được tạo và để thực hiện xác thực này. Thống kê miền ngữ nghĩa không được tạo theo mặc định.
    • Điều kiện phát hiện:
      • Tỷ lệ giá trị được hỗ trợ loại hình ảnh Tensorflow cho tất cả các loại hình ảnh ít hơn feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Trường lược đồ:
      • feature.in_environment hoặc feature.not_in_environment hoặc schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count hoặc feature.presence.min_fraction
    • Điều kiện phát hiện:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG hoặc DEPRECATED
      • feature.presence.min_count > 0 hoặc feature.presence.min_fraction > 0 và
      • feature.in_environment == môi trường hiện tại hoặc feature.not_in_environment != môi trường hiện tại hoặc schema.default_environment != môi trường hiện tại và
      • không tìm thấy tính năng nào có tên/đường dẫn đã chỉ định trong proto thống kê
  • SCHEMA_NEW_COLUMN

    • Điều kiện phát hiện:
      • có một tính năng trong nguyên mẫu thống kê nhưng không có tính năng nào có tên/đường dẫn của nó trong nguyên mẫu lược đồ
  • SCHEMA_TRAINING_SERVING_SKEW

    • Loại bất thường không được phát hiện trong TFDV
  • STRING_TYPE_NOW_FLOAT

    • Loại bất thường không được phát hiện trong TFDV
  • STRING_TYPE_NOW_INT

    • Loại bất thường không được phát hiện trong TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Trường lược đồ:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Điều kiện phát hiện:
      • proto thống kê kiểm soát (nghĩa là cung cấp số liệu thống kê cho độ lệch hoặc số liệu thống kê trước đó cho độ lệch) có sẵn nhưng không chứa tính năng được chỉ định
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Loại bất thường không được phát hiện trong TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Trường lược đồ:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Các trường thống kê:
      • features.string_stats.rank_histogram *
    • Điều kiện phát hiện:
      • Định mức vô cực L của vectơ biểu thị sự khác biệt giữa số lượng được chuẩn hóa từ features.string_stats.rank_histogram * trong thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê đào tạo cho nghiêng hoặc số liệu thống kê hiện tại về độ trôi) > feature.skew_comparator.infinity_norm.threshold hoặc feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • Trường lược đồ:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • Các trường thống kê:
      • features.string_stats.rank_histogram
    • Điều kiện phát hiện:
      • Sự khác biệt về số lượng tuyệt đối được chuẩn hóa của giá trị được tính từ features.string_stats.rank_histogram trong thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê huấn luyện cho độ lệch hoặc thống kê hiện tại cho độ lệch) Feature.skew_comparator.normalized_abs_difference.threshold hoặc Feature.drift_comparator.normalized_abs_difference.threshold. Sự khác biệt về số lượng được chuẩn hóa bằng tổng số lượng trên cả hai điều kiện.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Trường lược đồ:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Các trường thống kê:
      • features.num_stats.histograms thuộc loại STANDARD
      • features.string_stats.rank_histogram *
    • Điều kiện phát hiện:
      • Phân kỳ Jensen-Shannon gần đúng được tính toán giữa thống kê kiểm soát (nghĩa là phục vụ thống kê cho độ lệch hoặc thống kê trước đó cho độ lệch) và thống kê xử lý (tức là thống kê huấn luyện cho độ lệch hoặc thống kê hiện tại cho độ lệch) > feature.skew_comparator.jensen_shannon_divergence.threshold hoặc feature.drift_comparator.jensen_shannon_divergence.threshold . Độ phân kỳ Jensen-Shannon gần đúng được tính toán dựa trên số lượng mẫu được chuẩn hóa trong cả biểu đồ tiêu chuẩn features.num_stats.histogramsfeatures.string_stats.rank_histogram *.
  • NO_DATA_IN_SPAN

    • Loại bất thường không được phát hiện trong TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Trường lược đồ:
      • sparse_feature.value_feature
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats với "missing_value" là tên và
      • thống kê tùy chỉnh missing_value != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Trường lược đồ:
      • sparse_feature.index_feature
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats với tên "missing_index" và
      • Chỉ số tùy chỉnh missing_index chứa bất kỳ giá trị nào != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Trường lược đồ:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats với tên "min_length_diff" hoặc "max_length_diff"
      • chỉ số tùy chỉnh min_length_diff hoặc max_length_diff chứa bất kỳ giá trị nào != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Trường lược đồ:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Điều kiện phát hiện:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG hoặc DEPRECATED
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG hoặc DEPRECATED
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Trường lược đồ:
      • feature.domain_info
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats với "domain_info" là tên và
      • feature.domain_info chưa được đặt trong lược đồ và
      • có một chỉ số tùy chỉnh domain_info duy nhất cho tính năng này
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Trường lược đồ:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Các trường thống kê:
      • num_examples *
    • Điều kiện phát hiện:
      • num_examples * > 0 và
      • proto thống kê trước đó có sẵn và
      • num_examples * / thống kê trước đó num_examples * < bộ so sánh min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Trường lược đồ:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Các trường thống kê:
      • num_examples *
    • Điều kiện phát hiện:
      • num_examples * > 0 và
      • proto thống kê trước đó có sẵn và
      • num_examples * / số liệu thống kê trước đó num_examples * > bộ so sánh max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Trường lược đồ:
      • schema.dataset_constraints.min_examples_count
    • Các trường thống kê:
      • num_examples *
    • Điều kiện phát hiện:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Trường lược đồ:
      • schema.dataset_constraints.max_examples_count
    • Các trường thống kê:
      • num_examples *
    • Điều kiện phát hiện:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Trường lược đồ:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Điều kiện phát hiện:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG hoặc DEPRECATED và một trong hai
        • nếu feature.lifecycle_stage != PLANNED , ALPHA , DEBUG hoặc DEPRECATED ,
          • weighted_feature.name == feature.name ; hoặc
        • nếu sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG hoặc DEPRECATED ,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Trường lược đồ:
      • weighted_feature.feature
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats với "missing_value" là tên và
      • thống kê tùy chỉnh missing_value != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Trường lược đồ:
      • weighted_feature.weight_feature
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats với tên là "missing_weight" và
      • thống kê tùy chỉnh missing_weight != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Trường lược đồ:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Các trường thống kê:
      • features.custom_stats
    • Điều kiện phát hiện:
      • features.custom_stats có tên là "min_weighted_length_diff" hoặc "max_weight_length_diff" và
      • chỉ số tùy chỉnh min_weight_length_diff hoặc max_weight_length_diff != 0
  • VALUE_NESTEDNESS_MISMATCH

    • Trường lược đồ:
      • feature.value_count
      • feature.value_counts
    • Các trường thống kê:
      • features.common_stats.presence_and_valency_stats
    • Điều kiện phát hiện:
      • feature.value_count được chỉ định và có một số lượng lặp lại presence_and_valency_stats của tính năng (biểu thị mức độ lồng nhau lớn hơn một) và
      • feature.value_counts được chỉ định và số lần presence_and_valency_stats của tính năng được lặp lại không khớp với số lần value_count được lặp lại trong feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Trường lược đồ:
      • feature.type
      • feature.domain_info
    • Các trường thống kê:
      • features.type
    • Điều kiện phát hiện:
      • Nếu features.type == BYTES ,
        • feature.domain_info thuộc loại không tương thích; hoặc
      • nếu features.type != BYTES ,
        • feature.domain_info không khớp với feature.type (ví dụ: int_domain được chỉ định, nhưng type của tính năng là FLOAT )
  • FEATURE_MISSING_NAME

    • Trường lược đồ:
      • feature.name
    • Điều kiện phát hiện:
      • feature.name không được chỉ định
  • FEATURE_MISSING_TYPE

    • Trường lược đồ:
      • feature.type
    • Điều kiện phát hiện:
      • feature.type không được chỉ định
  • INVALID_SCHEMA_SPECIFICATION

    • Trường lược đồ:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Điều kiện phát hiện:
      • feature.presence.min_fraction < 0,0 hoặc > 1,0 hoặc
      • feature.value_count.min < 0 hoặc > feature.value_count.max hoặc
      • một miền bool, int, float, struct hoặc ngữ nghĩa được chỉ định cho một tính năng và feature.distribution_constraints cũng được chỉ định cho tính năng đó hoặc
      • feature.distribution_constraints được chỉ định cho một tính năng, nhưng cả miền cấp lược đồ và feature.string_domain đều không được chỉ định cho tính năng đó
  • INVALID_DOMAIN_SPECIFICATION

    • Trường lược đồ:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Điều kiện phát hiện:
      • Loại feature.domain_info không xác định được chỉ định hoặc
      • feature.domain được chỉ định, nhưng không có miền phù hợp được chỉ định ở cấp lược đồ hoặc
      • nếu feature.bool_domain , feature.bool_domain.true_valuefeature.bool_domain.false_value được chỉ định,
        • feature.bool_domain.true_value == feature.bool_domain.false_value hoặc
      • nếu feature.string_domain được chỉ định,
        • đã trùng lặp feature.string_domain.values ​​hoặc
        • feature.string_domain vượt quá kích thước tối đa
  • UNEXPECTED_DATA_TYPE

    • Trường lược đồ:
      • feature.type
    • Các trường thống kê:
      • features.type
    • Điều kiện phát hiện:
      • features.type không phải là loại được chỉ định trong feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Trường lược đồ:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Các trường thống kê:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Điều kiện phát hiện:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Trường lược đồ:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Các trường thống kê:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Điều kiện phát hiện:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Trường lược đồ:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Các trường thống kê:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Điều kiện phát hiện:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Trường lược đồ:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Các trường thống kê:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Điều kiện phát hiện:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Trường lược đồ:
      • feature.natural_language_domain.coverage.min_coverage
    • Các trường thống kê:
      • features.custom_stats.nl_statistics.feature_coverage
    • Điều kiện phát hiện:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Trường lược đồ:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Các trường thống kê:
      • features.custom_stats.nl_statistics.avg_token_length
    • Điều kiện phát hiện:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Loại bất thường không được phát hiện trong TFDV
  • EMBEDDING_SHAPE_INVALID

    • Loại bất thường không được phát hiện trong TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Trường lược đồ:
      • feature.image_domain.max_image_byte_size
    • Các trường thống kê:
      • features.bytes_stats.max_num_bytes_int
    • Điều kiện phát hiện:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Trường lược đồ:
      • feature.shape
    • Các trường thống kê:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • Điều kiện phát hiện:
      • feature.shape được chỉ định và một trong hai
        • tính năng này có thể bị thiếu ( num_missing != 0) ở cấp tổ hợp nào đó hoặc
        • đối tượng địa lý có thể có số lượng giá trị thay đổi ( min_num_values ​​!= max_num_values ​​) ở một mức tổ hợp nào đó hoặc
        • hình dạng được chỉ định không tương thích với số liệu thống kê về số lượng giá trị của đối tượng địa lý. Ví dụ: hình [16] tương thích với ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (đối với tính năng 3 lồng nhau))
  • STATS_NOT_AVAILBLE

    • Sự bất thường xảy ra khi không có số liệu thống kê cần thiết để xác thực các ràng buộc.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Trường lược đồ:
      • feature.lifecycle_stage
    • Các trường thống kê:
      • features.validation_derived_source
    • Điều kiện phát hiện:
      • feature.lifecycle_stage không phải là một trong DERIVED hoặc DISABLEDfeatures.validation_derived_source hiện diện, cho biết đây là một tính năng phái sinh.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Trường lược đồ:
      • feature.validation_derived_source
    • Các trường thống kê:
      • features.validation_derived_source
    • Điều kiện phát hiện:
      • features.validation_derived_source hiện diện cho một đối tượng địa lý, nhưng feature.validation_derived_source tương ứng thì không.

* Nếu thống kê có trọng số sẵn có cho trường này, nó sẽ được sử dụng thay cho thống kê không có trọng số.