Référence des anomalies de validation des données TensorFlow

TFDV vérifie les anomalies en comparant un schéma et des prototypes de statistiques. Le tableau suivant répertorie les types d'anomalies que TFDV peut détecter, les champs de schéma et de statistiques utilisés pour détecter chaque type d'anomalie et les conditions dans lesquelles chaque type d'anomalie est détecté.

  • BOOL_TYPE_BIG_INT

    • Champs de schéma :
      • feature.bool_domain
    • Champs statistiques :
      • features.num_stats.max
      • features.type
    • Condition de détection :
      • feature.bool_domain est spécifié et
      • features.type == INT et
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Type d'anomalie non détecté dans TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Type d'anomalie non détecté dans TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • BOOL_TYPE_SMALL_INT

    • Champs de schéma :
      • feature.bool_domain
    • Champs statistiques :
      • features.num_stats.min
      • features.type
    • Condition de détection :
      • features.type == INT et
      • feature.bool_domain est spécifié et
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Type d'anomalie non détecté dans TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Champs de schéma :
      • feature.bool_domain
    • Champs statistiques :
      • features.string_stats.rank_histogram *
    • Condition de détection :
      • features.type == STRING et
      • feature.bool_domain est spécifié et
      • au moins une valeur dans rank_histogram * n'est pas feature.bool_domain.true_value ou feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Champs de schéma :
      • feature.bool_domain
    • Champs statistiques :
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • Condition de détection :
      • features.type == FLOAT et
      • feature.bool_domain est spécifié et soit
        • ( features.num_stats.min != 0 ou features.num_stats.min != 1) ou
        • ( features.num_stats.max != 0 ou features.num_stats.max != 1) ou
        • features.num_stats.histograms.num_nan > 0 ou
        • ( features.num_stats.histograms.buckets.low_value != 0 ou features.num_stats.histograms.buckets.high_value != 1) et features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • Champs de schéma :
      • feature.bool_domain
    • Champs statistiques :
      • features.type
    • Condition de détection :
      • Si features.type == INT ou FLOAT ,
        • feature.bool_domain est spécifié et
        • feature.bool_domain.true_value ou feature.bool_domain.false_value est spécifié, ou
      • si features.type == STRING ,
        • feature.bool_domain est spécifié et
        • feature.bool_domain.true_value et feature.bool_domain.false_value ne sont pas spécifiés
  • ENUM_TYPE_BYTES_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Champs statistiques :
      • features.string_stats.invalid_utf8_count
    • Condition de détection :
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Champs de schéma :
      • string_domain et feature.domain ; ou feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Champs statistiques :
      • features.string_stats.rank_histogram *
    • Condition de détection :
      • Soit (nombre de valeurs dans rank_histogram * qui ne sont pas dans le domaine / nombre total de valeurs) > (1 - feature.distribution_constraints.min_domain_mass ) ou
      • feature.distribution_constraints.min_domain_mass == 1.0 et il y a des valeurs dans l'histogramme qui ne sont pas dans le domaine
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Champs de schéma :
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Champs statistiques :
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • Condition de détection :
      • Si feature.value_count.max est spécifié
        • features.common_stats.max_num_values ​​> feature.value_count.max ; ou
      • si feature.value_counts est spécifié
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​à un niveau d'imbrication donné
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Champs de schéma :
      • feature.presence.min_fraction
    • Champs statistiques :
      • features.common_stats.num_non_missing *
      • num_examples *
    • Condition de détection :
      • feature.presence.min_fraction est spécifié et ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction ou
      • feature.presence.min_fraction == 1.0 et common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Champs de schéma :
      • feature.presence.min_count
    • Champs statistiques :
      • features.common_stats.num_non_missing *
    • Condition de détection :
      • feature.presence.min_count est spécifié et soit
        • features.common_stats.num_non_missing * == 0 ou
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Champs de schéma :
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Champs statistiques :
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • Condition de détection :
      • Si feature.value_count.min est spécifié
        • features.common_stats.min_num_values ​​< feature.value_count.min ; ou
      • si feature.value_counts est spécifié
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min à un niveau d'imbrication donné
  • FEATURE_TYPE_NOT_PRESENT

    • Champs de schéma :
      • feature.in_environment ou feature.not_in_environment ou schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count ou feature.presence.min_fraction
    • Champs statistiques :
      • features.common_stats.num_non_missing *
    • Condition de détection :
      • feature.lifecycle_stage pas dans [ PLANNED , ALPHA , DEBUG , DEPRECATED ] et
      • common_stats.num_non_missing * == 0 et
      • ( feature.presence.min_count > 0 ou feature.presence.min_fraction > 0) et soit
        • feature.in_environment == environnement actuel ou
        • feature.not_in_environment != environnement actuel ou
        • schema.default_environment != environnement actuel
  • FEATURE_TYPE_NO_VALUES

    • Type d'anomalie non détecté dans TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Type d'anomalie non détecté dans TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Champs de schéma :
      • feature.unique_constraints.max
    • Champs statistiques :
      • features.string_stats.unique
    • Condition de détection :
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Champs de schéma :
      • feature.unique_constraints.min
    • Champs statistiques :
      • features.string_stats.unique
    • Condition de détection :
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Champs de schéma :
      • feature.unique_constraints
    • Champs statistiques :
      • features.string_stats.unique
    • Condition de détection :
      • feature.unique_constraints spécifié mais pas features.string_stats.unique présent (comme c'est le cas lorsque la fonctionnalité n'est pas une chaîne ou une catégorie)
  • FLOAT_TYPE_BIG_FLOAT

    • Champs de schéma :
      • feature.float_domain.max
    • Champs statistiques :
      • features.type
      • features.num_stats.max ou features.string_stats.rank_histogram
    • Condition de détection :
      • Si features.type == FLOAT ,
        • features.num_stats.max > feature.float_domain.max ; ou
      • si features.type == BYTES ou STRING ,
        • valeur maximale dans features.string_stats.rank_histogram (lorsqu'il est converti en float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Type d'anomalie non détecté dans TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Champs de schéma :
      • feature.float_domain.min
    • Champs statistiques :
      • features.type
      • features.num_stats.min ou features.string_stats.rank_histogram
    • Condition de détection :
      • Si features.type == FLOAT ,
        • features.num_stats.min < feature.float_domain.min ; ou
      • si features.type == BYTES ou STRING ,
        • valeur minimale dans features.string_stats.rank_histogram (lorsqu'il est converti en float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Champs de schéma :
      • feature.float_domain
    • Champs statistiques :
      • features.type
      • features.string_stats.rank_histogram
    • Condition de détection :
      • features.type == BYTES ou STRING et
      • features.string_stats.rank_histogram a au moins une valeur qui ne peut pas être convertie en flottant
  • FLOAT_TYPE_NON_STRING

    • Type d'anomalie non détecté dans TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Type d'anomalie non détecté dans TFDV
  • FLOAT_TYPE_HAS_NAN

    • Champs de schéma :
      • feature.float_domain.disallow_nan
    • Champs statistiques :
      • features.type
      • features.num_stats.histograms.num_nan
    • Condition de détection :
      • float_domain.disallow_nan est vrai et
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Champs de schéma :
      • feature.float_domain.disallow_inf
    • Champs statistiques :
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • Condition de détection :
      • features.type == FLOAT
      • float_domain.disallow_inf est vrai et soit
        • features.num_stats.min == inf/-inf ou
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Champs de schéma :
      • feature.int_domain.max
    • Champs statistiques :
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • Condition de détection :
      • Si features.type == INT ,
        • features.num_stats.max > feature.int_domain.max ; ou
      • si features.type == BYTES ou STRING ,
        • valeur maximale dans features.string_stats.rank_histogram (lorsqu'il est converti en int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Type d'anomalie non détecté dans TFDV
  • INT_TYPE_NOT_INT_STRING

    • Champs de schéma :
      • feature.int_domain
    • Champs statistiques :
      • features.type
      • features.string_stats.rank_histogram
    • Condition de détection :
      • features.type == BYTES ou STRING et
      • features.string_stats.rank_histogram a au moins une valeur qui ne peut pas être convertie en entier
  • INT_TYPE_NOT_STRING

    • Type d'anomalie non détecté dans TFDV
  • INT_TYPE_SMALL_INT

    • Champs de schéma :
      • feature.int_domain.min
    • Champs statistiques :
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • Condition de détection :
      • Si features.type == INT ,
        • features.num_stats.min < feature.int_domain.min ; ou
      • si features.type == BYTES ou STRING ,
        • valeur minimale dans features.string_stats.rank_histogram (lorsqu'il est converti en int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Type d'anomalie non détecté dans TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Type d'anomalie non détecté dans TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Champs de schéma :
      • feature.image_domain.minimum_supported_image_fraction
    • Champs statistiques :
      • features.custom_stats.rank_histogram pour les custom_stats avec le nom image_format_histogram . Notez que les statistiques de domaine sémantique doivent être activées pour que l'image_format_histogram soit générée et pour que cette validation soit effectuée. Les statistiques de domaine sémantique ne sont pas générées par défaut.
    • Condition de détection :
      • La fraction des valeurs prises en charge par les types d'images Tensorflow pour tous les types d'images est inférieure à feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Champs de schéma :
      • feature.in_environment ou feature.not_in_environment ou schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count ou feature.presence.min_fraction
    • Condition de détection :
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED et
      • feature.presence.min_count > 0 ou feature.presence.min_fraction > 0 et
      • feature.in_environment == environnement actuel ou feature.not_in_environment != environnement actuel ou schema.default_environment != environnement actuel et
      • aucune fonctionnalité avec le nom/chemin spécifié n'est trouvée dans le protocole de statistiques
  • SCHEMA_NEW_COLUMN

    • Condition de détection :
      • il y a une fonctionnalité dans le protocole de statistiques mais aucune fonctionnalité avec son nom/chemin dans le protocole de schéma
  • SCHEMA_TRAINING_SERVING_SKEW

    • Type d'anomalie non détecté dans TFDV
  • STRING_TYPE_NOW_FLOAT

    • Type d'anomalie non détecté dans TFDV
  • STRING_TYPE_NOW_INT

    • Type d'anomalie non détecté dans TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Champs de schéma :
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Condition de détection :
      • le proto des statistiques de contrôle (c'est-à-dire, les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) est disponible mais ne contient pas la fonctionnalité spécifiée
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Type d'anomalie non détecté dans TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Champs de schéma :
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Champs statistiques :
      • features.string_stats.rank_histogram *
    • Condition de détection :
      • Norme L-infini du vecteur qui représente la différence entre les décomptes normalisés de features.string_stats.rank_histogram * dans les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour skew ou statistiques actuelles pour la dérive) > feature.skew_comparator.infinity_norm.threshold ou feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • Champs de schéma :
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • Champs statistiques :
      • features.string_stats.rank_histogram
    • Condition de détection :
      • La différence de comptage absolu normalisée des valeurs compte à partir de features.string_stats.rank_histogram dans les statistiques de contrôle (c'est-à-dire, les statistiques de service pour l'inclinaison ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire, les statistiques d'entraînement pour l'inclinaison ou les statistiques actuelles pour la dérive) dépassées feature.skew_comparator.normalized_abs_difference.threshold ou feature.drift_comparator.normalized_abs_difference.threshold. Les différences de comptage sont normalisées par le nombre total dans les deux conditions.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Champs de schéma :
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Champs statistiques :
      • features.num_stats.histograms de type STANDARD
      • features.string_stats.rank_histogram *
    • Condition de détection :
      • Divergence approximative de Jensen-Shannon calculée entre les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour le biais ou les statistiques actuelles pour la dérive) > feature.skew_comparator.jensen_shannon_divergence.threshold ou feature.drift_comparator.jensen_shannon_divergence.threshold . La divergence approximative de Jensen-Shannon est calculée sur la base des nombres d'échantillons normalisés dans l'histogramme standard features.num_stats.histograms et dans features.string_stats.rank_histogram *.
  • NO_DATA_IN_SPAN

    • Type d'anomalie non détecté dans TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Champs de schéma :
      • sparse_feature.value_feature
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "missing_value" comme nom et
      • statistique personnalisée missing_value != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Champs de schéma :
      • sparse_feature.index_feature
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "missing_index" comme nom et
      • la statistique personnalisée missing_index contient n'importe quelle valeur != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Champs de schéma :
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "min_length_diff" ou "max_length_diff" comme nom
      • La statistique personnalisée min_length_diff ou max_length_diff contient n'importe quelle valeur != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Champs de schéma :
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condition de détection :
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED , et
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED , et
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Champs de schéma :
      • feature.domain_info
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "domain_info" comme nom et
      • feature.domain_info n'est pas déjà défini dans le schéma et
      • il existe une seule statistique personnalisée domain_info pour la fonctionnalité
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Champs de schéma :
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Champs statistiques :
      • num_examples *
    • Condition de détection :
      • num_examples * > 0 et
      • le précédent proto de statistiques est disponible et
      • num_examples * / statistiques précédentes num_examples * < comparator min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Champs de schéma :
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Champs statistiques :
      • num_examples *
    • Condition de détection :
      • num_examples * > 0 et
      • le précédent proto de statistiques est disponible et
      • num_examples * / statistiques précédentes num_examples * > comparateur max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Champs de schéma :
      • schema.dataset_constraints.min_examples_count
    • Champs statistiques :
      • num_examples *
    • Condition de détection :
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Champs de schéma :
      • schema.dataset_constraints.max_examples_count
    • Champs statistiques :
      • num_examples *
    • Condition de détection :
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Champs de schéma :
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condition de détection :
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED et soit
        • si feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED ,
          • weighted_feature.name == feature.name ; ou
        • si sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED ,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Champs de schéma :
      • weighted_feature.feature
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "missing_value" comme nom et
      • statistique personnalisée missing_value != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Champs de schéma :
      • weighted_feature.weight_feature
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "missing_weight" comme nom et
      • statistique personnalisée missing_weight != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Champs de schéma :
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Champs statistiques :
      • features.custom_stats
    • Condition de détection :
      • features.custom_stats avec "min_weighted_length_diff" ou "max_weight_length_diff" comme nom, et
      • min_weight_length_diff ou max_weight_length_diff statistique personnalisée != 0
  • VALUE_NESTEDNESS_MISMATCH

    • Champs de schéma :
      • feature.value_count
      • feature.value_counts
    • Champs statistiques :
      • features.common_stats.presence_and_valency_stats
    • Condition de détection :
      • feature.value_count est spécifié, et il y a une répétition presence_and_valency_stats de la fonctionnalité (qui indique un niveau d'imbrication supérieur à un) et
      • feature.value_counts est spécifié et le nombre de fois que les presence_and_valency_stats de la fonctionnalité sont répétées ne correspond pas au nombre de fois que value_count est répété dans feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Champs de schéma :
      • feature.type
      • feature.domain_info
    • Champs statistiques :
      • features.type
    • Condition de détection :
      • Si features.type == BYTES ,
        • feature.domain_info est d'un type incompatible ; ou
      • si features.type != BYTES ,
        • feature.domain_info ne correspond pas à feature.type (par exemple, int_domain est spécifié, mais type de feature est FLOAT )
  • FEATURE_MISSING_NAME

    • Champs de schéma :
      • feature.name
    • Condition de détection :
      • feature.name n'est pas spécifié
  • FEATURE_MISSING_TYPE

    • Champs de schéma :
      • feature.type
    • Condition de détection :
      • feature.type n'est pas spécifié
  • INVALID_SCHEMA_SPECIFICATION

    • Champs de schéma :
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Condition de détection :
      • feature.presence.min_fraction < 0,0 ou > 1,0, ou
      • feature.value_count.min < 0 ou > feature.value_count.max , ou
      • un domaine bool, int, float, struct ou sémantique est spécifié pour une fonctionnalité et feature.distribution_constraints est également spécifié pour cette fonctionnalité, ou
      • feature.distribution_constraints est spécifié pour une fonctionnalité, mais ni un domaine au niveau du schéma ni feature.string_domain n'est spécifié pour cette fonctionnalité
  • INVALID_DOMAIN_SPECIFICATION

    • Champs de schéma :
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Condition de détection :
      • Le type feature.domain_info inconnu est spécifié ou
      • feature.domain est spécifié, mais aucun domaine correspondant n'est spécifié au niveau du schéma, ou
      • si feature.bool_domain , feature.bool_domain.true_value et feature.bool_domain.false_value sont spécifiés,
        • feature.bool_domain.true_value == feature.bool_domain.false_value , ou
      • si feature.string_domain est spécifié,
        • a dupliqué feature.string_domain.values ​​ou
        • feature.string_domain dépasse la taille maximale
  • UNEXPECTED_DATA_TYPE

    • Champs de schéma :
      • feature.type
    • Champs statistiques :
      • features.type
    • Condition de détection :
      • features.type n'est pas du type spécifié dans feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Champs de schéma :
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Champs statistiques :
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Condition de détection :
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Champs de schéma :
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Champs statistiques :
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Condition de détection :
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Champs de schéma :
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Champs statistiques :
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condition de détection :
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Champs de schéma :
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Champs statistiques :
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condition de détection :
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Champs de schéma :
      • feature.natural_language_domain.coverage.min_coverage
    • Champs statistiques :
      • features.custom_stats.nl_statistics.feature_coverage
    • Condition de détection :
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Champs de schéma :
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Champs statistiques :
      • features.custom_stats.nl_statistics.avg_token_length
    • Condition de détection :
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Type d'anomalie non détecté dans TFDV
  • EMBEDDING_SHAPE_INVALID

    • Type d'anomalie non détecté dans TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Champs de schéma :
      • feature.image_domain.max_image_byte_size
    • Champs statistiques :
      • features.bytes_stats.max_num_bytes_int
    • Condition de détection :
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Champs de schéma :
      • feature.shape
    • Champs statistiques :
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • Condition de détection :
      • feature.shape est spécifié, et soit
        • la fonctionnalité peut être manquante ( num_missing != 0) à un certain niveau de nid ou
        • la fonctionnalité peut avoir un nombre variable de valeurs ( min_num_values ​​!= max_num_values ​​) à un certain niveau de nid ou
        • la forme spécifiée n'est pas compatible avec les statistiques de nombre de valeurs de l'entité. Par exemple, la forme [16] est compatible avec ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (pour une fonctionnalité à 3 imbrications))
  • STATS_NOT_AVAILBLE

    • Une anomalie se produit lorsque les statistiques nécessaires pour valider les contraintes ne sont pas présentes.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Champs de schéma :
      • feature.lifecycle_stage
    • Champs statistiques :
      • features.validation_derived_source
    • Condition de détection :
      • feature.lifecycle_stage n'est ni DERIVED ni DISABLED , et features.validation_derived_source est présent, indiquant qu'il s'agit d'une fonctionnalité dérivée.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Champs de schéma :
      • feature.validation_derived_source
    • Champs statistiques :
      • features.validation_derived_source
    • Condition de détection :
      • features.validation_derived_source est présent pour une fonctionnalité, mais le feature.validation_derived_source correspondant ne l'est pas.

* Si une statistique pondérée est disponible pour ce champ, elle sera utilisée à la place de la statistique non pondérée.