Odniesienie do anomalii w walidacji danych TensorFlow

TFDV sprawdza anomalie, porównując schemat i statystyki proto(-ów). Poniższy wykres zawiera listę typów anomalii, które TFDV może wykryć, pola schematu i statystyki używane do wykrywania każdego typu anomalii oraz warunki, w których wykrywany jest każdy typ anomalii.

  • BOOL_TYPE_BIG_INT

    • Pola schematu:
      • feature.bool_domain
    • Pola statystyki:
      • features.num_stats.max
      • features.type
    • Warunek wykrywania:
      • feature.bool_domain jest określona i
      • features.type == INT i
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Nie wykryto typu anomalii w TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Nie wykryto typu anomalii w TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • BOOL_TYPE_SMALL_INT

    • Pola schematu:
      • feature.bool_domain
    • Pola statystyki:
      • features.num_stats.min
      • features.type
    • Warunek wykrywania:
      • features.type == INT i
      • feature.bool_domain jest określona i
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Nie wykryto typu anomalii w TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Pola schematu:
      • feature.bool_domain
    • Pola statystyki:
      • features.string_stats.rank_histogram *
    • Warunek wykrywania:
      • features.type == STRING i
      • feature.bool_domain jest określona i
      • co najmniej jedna wartość w rank_histogram * nie jest feature.bool_domain.true_value ani feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Pola schematu:
      • feature.bool_domain
    • Pola statystyki:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • Warunek wykrywania:
      • features.type == FLOAT i
      • feature.bool_domain jest określona i albo
        • ( features.num_stats.min != 0 lub features.num_stats.min != 1) lub
        • ( features.num_stats.max != 0 lub features.num_stats.max != 1) lub
        • features.num_stats.histograms.num_nan > 0 lub
        • ( features.num_stats.histograms.buckets.low_value != 0 lub features.num_stats.histograms.buckets.high_value != 1) i features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • Pola schematu:
      • feature.bool_domain
    • Pola statystyki:
      • features.type
    • Warunek wykrywania:
      • Jeśli features.type == INT lub FLOAT ,
        • feature.bool_domain jest określona i
        • określono wartość feature.bool_domain.true_value lub feature.bool_domain.false_value , lub
      • jeśli features.type == STRING ,
        • feature.bool_domain jest określona i
        • feature.bool_domain.true_value i feature.bool_domain.false_value nie są określone
  • ENUM_TYPE_BYTES_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Pola statystyki:
      • features.string_stats.invalid_utf8_count
    • Warunek wykrywania:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Pola schematu:
      • string_domain i feature.domain ; lub feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Pola statystyki:
      • features.string_stats.rank_histogram *
    • Warunek wykrywania:
      • Albo (liczba wartości w rank_histogram *, które nie należą do dziedziny / całkowita liczba wartości) > (1 - feature.distribution_constraints.min_domain_mass ) albo
      • feature.distribution_constraints.min_domain_mass == 1.0 i na histogramie są wartości, które nie należą do domeny
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Pola schematu:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Pola statystyki:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • Warunek wykrywania:
      • Jeśli określono feature.value_count.max
        • features.common_stats.max_num_values ​​> feature.value_count.max ; Lub
      • jeśli określono feature.value_counts
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​na danym poziomie zagnieżdżenia
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Pola schematu:
      • feature.presence.min_fraction
    • Pola statystyki:
      • features.common_stats.num_non_missing *
      • num_examples *
    • Warunek wykrywania:
      • feature.presence.min_fraction jest określony i ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction lub
      • feature.presence.min_fraction == 1.0 i common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Pola schematu:
      • feature.presence.min_count
    • Pola statystyki:
      • features.common_stats.num_non_missing *
    • Warunek wykrywania:
      • feature.presence.min_count jest określony i albo
        • features.common_stats.num_non_missing * == 0 lub
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Pola schematu:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Pola statystyki:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • Warunek wykrywania:
      • Jeśli określono feature.value_count.min
        • features.common_stats.min_num_values ​​< feature.value_count.min ; Lub
      • jeśli określono feature.value_counts
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min na danym poziomie zagnieżdżenia
  • FEATURE_TYPE_NOT_PRESENT

    • Pola schematu:
      • feature.in_environment lub feature.not_in_environment lub schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count lub feature.presence.min_fraction
    • Pola statystyki:
      • features.common_stats.num_non_missing *
    • Warunek wykrywania:
      • feature.lifecycle_stage nie jest w [ PLANNED , ALPHA , DEBUG , DEPRECATED ] i
      • common_stats.num_non_missing * == 0 i
      • ( feature.presence.min_count > 0 lub feature.presence.min_fraction > 0) i albo
        • feature.in_environment == obecne środowisko lub
        • feature.not_in_environment != bieżące środowisko lub
        • schema.default_environment != bieżące środowisko
  • FEATURE_TYPE_NO_VALUES

    • Nie wykryto typu anomalii w TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Nie wykryto typu anomalii w TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Pola schematu:
      • feature.unique_constraints.max
    • Pola statystyki:
      • features.string_stats.unique
    • Warunek wykrywania:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Pola schematu:
      • feature.unique_constraints.min
    • Pola statystyki:
      • features.string_stats.unique
    • Warunek wykrywania:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Pola schematu:
      • feature.unique_constraints
    • Pola statystyki:
      • features.string_stats.unique
    • Warunek wykrywania:
      • Określono feature.unique_constraints , ale nie określono features.string_stats.unique (tak jak w przypadku, gdy cecha nie jest łańcuchem ani kategoryczną)
  • FLOAT_TYPE_BIG_FLOAT

    • Pola schematu:
      • feature.float_domain.max
    • Pola statystyki:
      • features.type
      • features.num_stats.max lub features.string_stats.rank_histogram
    • Warunek wykrywania:
      • Jeśli features.type == FLOAT ,
        • features.num_stats.max > feature.float_domain.max ; Lub
      • if features.type == BYTES lub STRING ,
        • maksymalna wartość w features.string_stats.rank_histogram (po przekonwertowaniu na float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Nie wykryto typu anomalii w TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Pola schematu:
      • feature.float_domain.min
    • Pola statystyki:
      • features.type
      • features.num_stats.min lub features.string_stats.rank_histogram
    • Warunek wykrywania:
      • Jeśli features.type == FLOAT ,
        • features.num_stats.min < feature.float_domain.min ; Lub
      • if features.type == BYTES lub STRING ,
        • minimalna wartość w features.string_stats.rank_histogram (po przekonwertowaniu na float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Pola schematu:
      • feature.float_domain
    • Pola statystyki:
      • features.type
      • features.string_stats.rank_histogram
    • Warunek wykrywania:
      • features.type == BYTES lub STRING i
      • features.string_stats.rank_histogram ma co najmniej jedną wartość, której nie można przekonwertować na liczbę zmiennoprzecinkową
  • FLOAT_TYPE_NON_STRING

    • Nie wykryto typu anomalii w TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Nie wykryto typu anomalii w TFDV
  • FLOAT_TYPE_HAS_NAN

    • Pola schematu:
      • feature.float_domain.disallow_nan
    • Pola statystyki:
      • features.type
      • features.num_stats.histograms.num_nan
    • Warunek wykrywania:
      • float_domain.disallow_nan jest prawdą i
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Pola schematu:
      • feature.float_domain.disallow_inf
    • Pola statystyki:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • Warunek wykrywania:
      • features.type == FLOAT
      • float_domain.disallow_inf ma wartość true i albo
        • features.num_stats.min == inf/-inf lub
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Pola schematu:
      • feature.int_domain.max
    • Pola statystyki:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • Warunek wykrywania:
      • Jeśli features.type == INT ,
        • features.num_stats.max > feature.int_domain.max ; Lub
      • if features.type == BYTES lub STRING ,
        • maksymalna wartość w features.string_stats.rank_histogram (po przekonwertowaniu na int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Nie wykryto typu anomalii w TFDV
  • INT_TYPE_NOT_INT_STRING

    • Pola schematu:
      • feature.int_domain
    • Pola statystyki:
      • features.type
      • features.string_stats.rank_histogram
    • Warunek wykrywania:
      • features.type == BYTES lub STRING i
      • features.string_stats.rank_histogram ma co najmniej jedną wartość, której nie można przekonwertować na liczbę całkowitą
  • INT_TYPE_NOT_STRING

    • Nie wykryto typu anomalii w TFDV
  • INT_TYPE_SMALL_INT

    • Pola schematu:
      • feature.int_domain.min
    • Pola statystyki:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • Warunek wykrywania:
      • Jeśli features.type == INT ,
        • features.num_stats.min < feature.int_domain.min ; Lub
      • if features.type == BYTES lub STRING ,
        • minimalna wartość w features.string_stats.rank_histogram (po przeliczeniu na int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Nie wykryto typu anomalii w TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Nie wykryto typu anomalii w TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Pola schematu:
      • feature.image_domain.minimum_supported_image_fraction
    • Pola statystyki:
      • features.custom_stats.rank_histogram dla custom_stats o nazwie image_format_histogram . Pamiętaj, że statystyki domeny semantycznej muszą być włączone, aby wygenerować image_format_histogram i przeprowadzić tę weryfikację. Statystyki domeny semantycznej nie są domyślnie generowane.
    • Warunek wykrywania:
      • Ułamek wartości obsługiwanych typów obrazów Tensorflow dla wszystkich typów obrazów jest mniejszy niż feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Pola schematu:
      • feature.in_environment lub feature.not_in_environment lub schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count lub feature.presence.min_fraction
    • Warunek wykrywania:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG lub DEPRECATED i
      • feature.presence.min_count > 0 lub feature.presence.min_fraction > 0 i
      • feature.in_environment == bieżące środowisko lub feature.not_in_environment != bieżące środowisko lub schema.default_environment != bieżące środowisko i
      • w protokole statystyki nie znaleziono obiektu o podanej nazwie/ścieżce
  • SCHEMA_NEW_COLUMN

    • Warunek wykrywania:
      • w protokole statystyk istnieje funkcja, ale w protokole schematu nie ma funkcji z jej nazwą/ścieżką
  • SCHEMA_TRAINING_SERVING_SKEW

    • Nie wykryto typu anomalii w TFDV
  • STRING_TYPE_NOW_FLOAT

    • Nie wykryto typu anomalii w TFDV
  • STRING_TYPE_NOW_INT

    • Nie wykryto typu anomalii w TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Pola schematu:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Warunek wykrywania:
      • Proto statystyk kontrolnych (tj. udostępnianie statystyk dla pochylenia lub poprzednich statystyk dla dryfu) jest dostępne, ale nie zawiera określonej funkcji
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Nie wykryto typu anomalii w TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Pola schematu:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Pola statystyki:
      • features.string_stats.rank_histogram *
    • Warunek wykrywania:
      • Norma L-nieskończoności wektora, który reprezentuje różnicę między znormalizowanymi zliczeniami z features.string_stats.rank_histogram * w statystykach kontrolnych (tj. pochylenie lub bieżące statystyki dryfu) > feature.skew_comparator.infinity_norm.threshold lub feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • Pola schematu:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • Pola statystyki:
      • features.string_stats.rank_histogram
    • Warunek wykrywania:
      • Znormalizowana bezwzględna różnica zliczeń między wartościami z features.string_stats.rank_histogram w statystykach kontrolnych (tj. statystyki udostępniania dla pochylenia lub poprzednie statystyki dla dryfu) i statystyki leczenia (tj. statystyki treningu dla pochylenia lub bieżące statystyki dla dryfu) przekroczyła Feature.skew_comparator.normalized_abs_difference.threshold lub feature.drift_comparator.normalized_abs_difference.threshold. Różnice w liczbie są normalizowane przez całkowitą liczbę w obu warunkach.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Pola schematu:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Pola statystyki:
      • features.num_stats.histograms typu STANDARD
      • features.string_stats.rank_histogram *
    • Warunek wykrywania:
      • Przybliżona rozbieżność Jensena-Shannona obliczona między statystykami kontrolnymi (tj. statystykami serwowania dla pochylenia lub poprzednimi statystykami dla dryfu) a statystykami leczenia (tj. statystykami treningu dla pochylenia lub bieżącymi statystykami dla dryfu) > feature.skew_comparator.jensen_shannon_divergence.threshold lub feature.drift_comparator.jensen_shannon_divergence.threshold . Przybliżona rozbieżność Jensena-Shannona jest obliczana na podstawie znormalizowanych zliczeń próbek na histogramie standardowym features.num_stats.histograms i features.string_stats.rank_histogram *.
  • NO_DATA_IN_SPAN

    • Nie wykryto typu anomalii w TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Pola schematu:
      • sparse_feature.value_feature
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z „missing_value” jako nazwą i
      • missing_value statystyka niestandardowa != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Pola schematu:
      • sparse_feature.index_feature
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z „missing_index” jako nazwą i
      • Niestandardowa statystyka missing_index zawiera dowolną wartość != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Pola schematu:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z nazwą „min_length_diff” lub „max_length_diff”.
      • Niestandardowa statystyka min_length_diff lub max_length_diff zawiera dowolną wartość != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Pola schematu:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Warunek wykrywania:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG lub DEPRECATED oraz
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG lub DEPRECATED , oraz
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Pola schematu:
      • feature.domain_info
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z „domain_info” jako nazwą i
      • feature.domain_info nie jest jeszcze ustawiony w schemacie i
      • istnieje jedna niestandardowa statystyka domain_info dla tej funkcji
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Pola schematu:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Pola statystyki:
      • num_examples *
    • Warunek wykrywania:
      • num_examples * > 0 i
      • dostępne jest poprzednie proto statystyk i
      • num_examples * / poprzednie statystyki num_examples * < komparator min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Pola schematu:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Pola statystyki:
      • num_examples *
    • Warunek wykrywania:
      • num_examples * > 0 i
      • dostępne jest poprzednie proto statystyk i
      • num_examples * / poprzednie statystyki num_examples * > komparator max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Pola schematu:
      • schema.dataset_constraints.min_examples_count
    • Pola statystyki:
      • num_examples *
    • Warunek wykrywania:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Pola schematu:
      • schema.dataset_constraints.max_examples_count
    • Pola statystyki:
      • num_examples *
    • Warunek wykrywania:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Pola schematu:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Warunek wykrywania:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG lub DEPRECATED i albo
        • if feature.lifecycle_stage != PLANNED , ALPHA , DEBUG lub DEPRECATED ,
          • weighted_feature.name == feature.name ; Lub
        • if sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG lub DEPRECATED ,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Pola schematu:
      • weighted_feature.feature
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z „missing_value” jako nazwą i
      • missing_value statystyka niestandardowa != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Pola schematu:
      • weighted_feature.weight_feature
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z „missing_weight” jako nazwą i
      • missing_weight własna statystyka != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Pola schematu:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Pola statystyki:
      • features.custom_stats
    • Warunek wykrywania:
      • features.custom_stats z nazwą „min_weighted_length_diff” lub „max_weight_length_diff”, oraz
      • min_weight_length_diff lub max_weight_length_diff statystyka niestandardowa != 0
  • VALUE_NESTEDNESS_MISMATCH

    • Pola schematu:
      • feature.value_count
      • feature.value_counts
    • Pola statystyki:
      • features.common_stats.presence_and_valency_stats
    • Warunek wykrywania:
      • określono feature.value_count i powtarza się parametr presence_and_valency_stats elementu (co wskazuje na poziom zagnieżdżenia większy niż jeden) oraz
      • określono feature.value_counts , a liczba powtórzeń statystyk presence_and_valency_stats nie odpowiada liczbie powtórzeń value_count w ramach feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Pola schematu:
      • feature.type
      • feature.domain_info
    • Pola statystyki:
      • features.type
    • Warunek wykrywania:
      • Jeśli features.type == BYTES ,
        • feature.domain_info jest niezgodnego typu; Lub
      • jeśli features.type != BYTES ,
        • feature.domain_info nie pasuje do feature.type (np. określono int_domain , ale type elementu jest FLOAT )
  • FEATURE_MISSING_NAME

    • Pola schematu:
      • feature.name
    • Warunek wykrywania:
      • feature.name nie jest określona
  • FEATURE_MISSING_TYPE

    • Pola schematu:
      • feature.type
    • Warunek wykrywania:
      • feature.type nie jest określony
  • INVALID_SCHEMA_SPECIFICATION

    • Pola schematu:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Warunek wykrywania:
      • feature.presence.min_fraction < 0,0 lub > 1,0 lub
      • feature.value_count.min < 0 lub > feature.value_count.max , lub
      • dla funkcji określono domenę bool, int, float, struct lub semantyczną, a dla tej funkcji określono również feature.distribution_constraints lub
      • feature.distribution_constraints jest określona dla funkcji, ale dla tej funkcji nie określono ani domeny na poziomie schematu, ani feature.string_domain
  • INVALID_DOMAIN_SPECIFICATION

    • Pola schematu:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Warunek wykrywania:
      • Określono nieznany typ feature.domain_info lub
      • Określono feature.domain , ale nie określono pasującej domeny na poziomie schematu lub
      • jeśli feature.bool_domain , feature.bool_domain.true_value i feature.bool_domain.false_value są określone,
        • feature.bool_domain.true_value == feature.bool_domain.false_value lub
      • jeśli określono feature.string_domain ,
        • ma zduplikowane atrybuty feature.string_domain.values ​​lub
        • feature.string_domain przekracza maksymalny rozmiar
  • UNEXPECTED_DATA_TYPE

    • Pola schematu:
      • feature.type
    • Pola statystyki:
      • features.type
    • Warunek wykrywania:
      • features.type nie jest typu określonego w feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Pola schematu:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Pola statystyki:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Warunek wykrywania:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Pola schematu:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Pola statystyki:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Warunek wykrywania:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Pola schematu:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Pola statystyki:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Warunek wykrywania:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Pola schematu:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Pola statystyki:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Warunek wykrywania:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Pola schematu:
      • feature.natural_language_domain.coverage.min_coverage
    • Pola statystyki:
      • features.custom_stats.nl_statistics.feature_coverage
    • Warunek wykrywania:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Pola schematu:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Pola statystyki:
      • features.custom_stats.nl_statistics.avg_token_length
    • Warunek wykrywania:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Nie wykryto typu anomalii w TFDV
  • EMBEDDING_SHAPE_INVALID

    • Nie wykryto typu anomalii w TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Pola schematu:
      • feature.image_domain.max_image_byte_size
    • Pola statystyki:
      • features.bytes_stats.max_num_bytes_int
    • Warunek wykrywania:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Pola schematu:
      • feature.shape
    • Pola statystyki:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • Warunek wykrywania:
      • feature.shape jest określony i albo
        • funkcji może brakować ( num_missing != 0) na pewnym poziomie zagnieżdżenia lub
        • cecha może mieć zmienną liczbę wartości ( min_num_values ​​!= max_num_values ​​) na pewnym poziomie zagnieżdżenia lub
        • określony kształt nie jest zgodny ze statystykami zliczania wartości cechy. Na przykład kształt [16] jest zgodny z ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (dla funkcji 3-zagnieżdżonej))
  • STATS_NOT_AVAILBLE

    • Anomalia występuje, gdy nie są dostępne statystyki potrzebne do sprawdzenia ograniczeń.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Pola schematu:
      • feature.lifecycle_stage
    • Pola statystyki:
      • features.validation_derived_source
    • Warunek wykrywania:
      • feature.lifecycle_stage nie jest jednym z DERIVED ani DISABLED , a features.validation_derived_source jest obecny, co wskazuje, że jest to funkcja pochodna.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Pola schematu:
      • feature.validation_derived_source
    • Pola statystyki:
      • features.validation_derived_source
    • Warunek wykrywania:
      • features.validation_derived_source jest obecny dla funkcji, ale odpowiadający mu feature.validation_derived_source nie.

* Jeśli dla tego pola dostępna jest statystyka ważona, zostanie ona użyta zamiast statystyki nieważonej.