Cette page a été traduite par l'API Cloud Translation.

Référence sur les anomalies de validation des données TensorFlow

TFDV vérifie les anomalies en comparant un schéma et des prototypes de statistiques. Le tableau suivant répertorie les types d'anomalies que TFDV peut détecter, les champs de schéma et de statistiques utilisés pour détecter chaque type d'anomalie et les conditions dans lesquelles chaque type d'anomalie est détecté.

BOOL_TYPE_BIG_INT
- Champs de schéma :
  - feature.bool_domain
- Champs statistiques :
  - features.num_stats.max
  - features.type
- Condition de détection :
  - feature.bool_domain est spécifié et
  - features.type == INT et
  - features.num_stats.max > 1
BOOL_TYPE_BYTES_NOT_INT
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_INT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_SMALL_INT
- Champs de schéma :
  - feature.bool_domain
- Champs statistiques :
  - features.num_stats.min
  - features.type
- Condition de détection :
  - features.type == INT et
  - feature.bool_domain est spécifié et
  - features.num_stats.min < 0
BOOL_TYPE_STRING_NOT_INT
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Champs de schéma :
  - feature.bool_domain
- Champs statistiques :
  - features.string_stats.rank_histogram *
- Condition de détection :
  - features.type == STRING et
  - feature.bool_domain est spécifié et
  - au moins une valeur dans rank_histogram * n'est pas feature.bool_domain.true_value ou feature.bool_domain.false_value
BOOL_TYPE_UNEXPECTED_FLOAT
- Champs de schéma :
  - feature.bool_domain
- Champs statistiques :
  - features.num_stats.min
  - features.num_stats.max
  - features.num_stats.histograms.num_nan
  - features.num_stats.histograms.buckets.low_value
  - features.num_stats.histograms.buckets.high_value
  - features.type
- Condition de détection :
  - features.type == FLOAT et
  - feature.bool_domain est spécifié et soit
    - ( features.num_stats.min != 0 ou features.num_stats.min != 1) ou
    - ( features.num_stats.max != 0 ou features.num_stats.max != 1) ou
    - features.num_stats.histograms.num_nan > 0 ou
    - ( features.num_stats.histograms.buckets.low_value != 0 ou features.num_stats.histograms.buckets.high_value != 1) et features.num_stats.histograms.buckets.sample_count > 0
BOOL_TYPE_INVALID_CONFIG
- Champs de schéma :
  - feature.bool_domain
- Champs statistiques :
  - features.type
- Condition de détection :
  - Si features.type == INT ou FLOAT ,
    - feature.bool_domain est spécifié et
    - feature.bool_domain.true_value ou feature.bool_domain.false_value est spécifié, ou
  - si features.type == STRING ,
    - feature.bool_domain est spécifié et
    - feature.bool_domain.true_value et feature.bool_domain.false_value ne sont pas spécifiés
ENUM_TYPE_BYTES_NOT_STRING
- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_INT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_INVALID_UTF8
- Champs statistiques :
  - features.string_stats.invalid_utf8_count
- Condition de détection :
  - invalid_utf8_count > 0
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Champs de schéma :
  - string_domain et feature.domain ; ou feature.string_domain
  - feature.distribution_constraints.min_domain_mass
- Champs statistiques :
  - features.string_stats.rank_histogram *
- Condition de détection :
  - Soit (nombre de valeurs dans rank_histogram * qui ne sont pas dans le domaine / nombre total de valeurs) > (1 - feature.distribution_constraints.min_domain_mass ) ou
  - feature.distribution_constraints.min_domain_mass == 1.0 et il y a des valeurs dans l'histogramme qui ne sont pas dans le domaine
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Champs de schéma :
  - feature.value_count.max
  - feature.value_counts.value_count.max
- Champs statistiques :
  - features.common_stats.max_num_values
  - features.common_stats.presence_and_valency_stats.max_num_values
- Condition de détection :
  - Si feature.value_count.max est spécifié
    - features.common_stats.max_num_values > feature.value_count.max ; ou
  - si feature.value_counts est spécifié
    - feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values à un niveau d'imbrication donné
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Champs de schéma :
  - feature.presence.min_fraction
- Champs statistiques :
  - features.common_stats.num_non_missing *
  - num_examples *
- Condition de détection :
  - feature.presence.min_fraction est spécifié et ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction ou
  - feature.presence.min_fraction == 1.0 et common_stats.num_missing != 0
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Champs de schéma :
  - feature.presence.min_count
- Champs statistiques :
  - features.common_stats.num_non_missing *
- Condition de détection :
  - feature.presence.min_count est spécifié et soit
    - features.common_stats.num_non_missing * == 0 ou
    - features.common_stats.num_non_missing * < feature.presence.min_count
FEATURE_TYPE_LOW_NUMBER_VALUES
- Champs de schéma :
  - feature.value_count.min
  - feature.value_counts.value_count.min
- Champs statistiques :
  - features.common_stats.min_num_values
  - features.common_stats.presence_and_valency_stats.min_num_values
- Condition de détection :
  - Si feature.value_count.min est spécifié
    - features.common_stats.min_num_values < feature.value_count.min ; ou
  - si feature.value_counts est spécifié
    - features.common_stats.presence_and_valency_stats.min_num_values < feature.value_counts.value_count.min à un niveau d'imbrication donné
FEATURE_TYPE_NOT_PRESENT
- Champs de schéma :
  - feature.in_environment ou feature.not_in_environment ou schema.default_environment
  - feature.lifecycle_stage
  - feature.presence.min_count ou feature.presence.min_fraction
- Champs statistiques :
  - features.common_stats.num_non_missing *
- Condition de détection :
  - feature.lifecycle_stage pas dans [ PLANNED , ALPHA , DEBUG , DEPRECATED ] et
  - common_stats.num_non_missing * == 0 et
  - ( feature.presence.min_count > 0 ou feature.presence.min_fraction > 0) et soit
    - feature.in_environment == environnement actuel ou
    - feature.not_in_environment != environnement actuel ou
    - schema.default_environment != environnement actuel
FEATURE_TYPE_NO_VALUES
- Type d'anomalie non détecté dans TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Type d'anomalie non détecté dans TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Champs de schéma :
  - feature.unique_constraints.max
- Champs statistiques :
  - features.string_stats.unique
- Condition de détection :
  - features.string_stats.unique > feature.unique_constraints.max
FEATURE_TYPE_LOW_UNIQUE
- Champs de schéma :
  - feature.unique_constraints.min
- Champs statistiques :
  - features.string_stats.unique
- Condition de détection :
  - features.string_stats.unique < feature.unique_constraints.min
FEATURE_TYPE_NO_UNIQUE
- Champs de schéma :
  - feature.unique_constraints
- Champs statistiques :
  - features.string_stats.unique
- Condition de détection :
  - feature.unique_constraints spécifié mais pas features.string_stats.unique présent (comme c'est le cas lorsque la fonctionnalité n'est pas une chaîne ou une catégorie)
FLOAT_TYPE_BIG_FLOAT
- Champs de schéma :
  - feature.float_domain.max
- Champs statistiques :
  - features.type
  - features.num_stats.max ou features.string_stats.rank_histogram
- Condition de détection :
  - Si features.type == FLOAT ,
    - features.num_stats.max > feature.float_domain.max ; ou
  - si features.type == BYTES ou STRING ,
    - valeur maximale dans features.string_stats.rank_histogram (lorsqu'il est converti en float) > feature.float_domain.max
FLOAT_TYPE_NOT_FLOAT
- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_SMALL_FLOAT
- Champs de schéma :
  - feature.float_domain.min
- Champs statistiques :
  - features.type
  - features.num_stats.min ou features.string_stats.rank_histogram
- Condition de détection :
  - Si features.type == FLOAT ,
    - features.num_stats.min < feature.float_domain.min ; ou
  - si features.type == BYTES ou STRING ,
    - valeur minimale dans features.string_stats.rank_histogram (lorsqu'il est converti en float) < feature.float_domain.min
FLOAT_TYPE_STRING_NOT_FLOAT
- Champs de schéma :
  - feature.float_domain
- Champs statistiques :
  - features.type
  - features.string_stats.rank_histogram
- Condition de détection :
  - features.type == BYTES ou STRING et
  - features.string_stats.rank_histogram a au moins une valeur qui ne peut pas être convertie en flottant
FLOAT_TYPE_NON_STRING
- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_HAS_NAN
- Champs de schéma :
  - feature.float_domain.disallow_nan
- Champs statistiques :
  - features.type
  - features.num_stats.histograms.num_nan
- Condition de détection :
  - float_domain.disallow_nan est vrai et
  - features.num_stats.histograms.num_nan > 0
FLOAT_TYPE_HAS_INF
- Champs de schéma :
  - feature.float_domain.disallow_inf
- Champs statistiques :
  - features.type
  - features.num_stats.min
  - features.num_stats.max
- Condition de détection :
  - features.type == FLOAT
  - float_domain.disallow_inf est vrai et soit
    - features.num_stats.min == inf/-inf ou
    - features.num_stats.max == inf/-inf
INT_TYPE_BIG_INT
- Champs de schéma :
  - feature.int_domain.max
- Champs statistiques :
  - features.type
  - features.num_stats.max
  - features.string_stats.rank_histogram
- Condition de détection :
  - Si features.type == INT ,
    - features.num_stats.max > feature.int_domain.max ; ou
  - si features.type == BYTES ou STRING ,
    - valeur maximale dans features.string_stats.rank_histogram (lorsqu'il est converti en int) > feature.int_domain.max
INT_TYPE_INT_EXPECTED
- Type d'anomalie non détecté dans TFDV
INT_TYPE_NOT_INT_STRING
- Champs de schéma :
  - feature.int_domain
- Champs statistiques :
  - features.type
  - features.string_stats.rank_histogram
- Condition de détection :
  - features.type == BYTES ou STRING et
  - features.string_stats.rank_histogram a au moins une valeur qui ne peut pas être convertie en entier
INT_TYPE_NOT_STRING
- Type d'anomalie non détecté dans TFDV
INT_TYPE_SMALL_INT
- Champs de schéma :
  - feature.int_domain.min
- Champs statistiques :
  - features.type
  - features.num_stats.min
  - features.string_stats.rank_histogram
- Condition de détection :
  - Si features.type == INT ,
    - features.num_stats.min < feature.int_domain.min ; ou
  - si features.type == BYTES ou STRING ,
    - valeur minimale dans features.string_stats.rank_histogram (lorsqu'il est converti en int) < feature.int_domain.min
INT_TYPE_STRING_EXPECTED
- Type d'anomalie non détecté dans TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Type d'anomalie non détecté dans TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Champs de schéma :
  - feature.image_domain.minimum_supported_image_fraction
- Champs statistiques :
  - features.custom_stats.rank_histogram pour les custom_stats avec le nom image_format_histogram . Notez que les statistiques de domaine sémantique doivent être activées pour que l'image_format_histogram soit générée et pour que cette validation soit effectuée. Les statistiques de domaine sémantique ne sont pas générées par défaut.
- Condition de détection :
  - La fraction des valeurs prises en charge par les types d'images Tensorflow pour tous les types d'images est inférieure à feature.image_domain.minimum_supported_image_fraction .
SCHEMA_MISSING_COLUMN
- Champs de schéma :
  - feature.in_environment ou feature.not_in_environment ou schema.default_environment
  - feature.lifecycle_stage
  - feature.presence.min_count ou feature.presence.min_fraction
- Condition de détection :
  - feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED et
  - feature.presence.min_count > 0 ou feature.presence.min_fraction > 0 et
  - feature.in_environment == environnement actuel ou feature.not_in_environment != environnement actuel ou schema.default_environment != environnement actuel et
  - aucune fonctionnalité avec le nom/chemin spécifié n'est trouvée dans le protocole de statistiques
SCHEMA_NEW_COLUMN
- Condition de détection :
  - il y a une fonctionnalité dans le protocole de statistiques mais aucune fonctionnalité avec son nom/chemin dans le protocole de schéma
SCHEMA_TRAINING_SERVING_SKEW
- Type d'anomalie non détecté dans TFDV
STRING_TYPE_NOW_FLOAT
- Type d'anomalie non détecté dans TFDV
STRING_TYPE_NOW_INT
- Type d'anomalie non détecté dans TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Champs de schéma :
  - feature.skew_comparator.infinity_norm.threshold
  - feature.drift_comparator.infinity_norm.threshold
- Condition de détection :
  - le proto des statistiques de contrôle (c'est-à-dire, les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) est disponible mais ne contient pas la fonctionnalité spécifiée
COMPARATOR_TREATMENT_DATA_MISSING
- Type d'anomalie non détecté dans TFDV
COMPARATOR_L_INFTY_HIGH
- Champs de schéma :
  - feature.skew_comparator.infinity_norm.threshold
  - feature.drift_comparator.infinity_norm.threshold
- Champs statistiques :
  - features.string_stats.rank_histogram *
- Condition de détection :
  - Norme L-infini du vecteur qui représente la différence entre les décomptes normalisés de features.string_stats.rank_histogram * dans les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour skew ou statistiques actuelles pour la dérive) > feature.skew_comparator.infinity_norm.threshold ou feature.drift_comparator.infinity_norm.threshold
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Champs de schéma :
  - feature.skew_comparator.normalized_abs_difference.threshold
  - feature.drift_comparator.normalized_abs_difference.threshold
- Champs statistiques :
  - features.string_stats.rank_histogram
- Condition de détection :
  - La différence de comptage absolu normalisée des valeurs compte à partir de features.string_stats.rank_histogram dans les statistiques de contrôle (c'est-à-dire, les statistiques de service pour l'inclinaison ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire, les statistiques d'entraînement pour l'inclinaison ou les statistiques actuelles pour la dérive) dépassées feature.skew_comparator.normalized_abs_difference.threshold ou feature.drift_comparator.normalized_abs_difference.threshold. Les différences de comptage sont normalisées par le nombre total dans les deux conditions.
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Champs de schéma :
  - feature.skew_comparator.jensen_shannon_divergence.threshold
  - feature.drift_comparator.jensen_shannon_divergence.threshold
- Champs statistiques :
  - features.num_stats.histograms de type STANDARD
  - features.string_stats.rank_histogram *
- Condition de détection :
  - Divergence approximative de Jensen-Shannon calculée entre les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour le biais ou les statistiques actuelles pour la dérive) > feature.skew_comparator.jensen_shannon_divergence.threshold ou feature.drift_comparator.jensen_shannon_divergence.threshold . La divergence approximative de Jensen-Shannon est calculée sur la base des nombres d'échantillons normalisés dans l'histogramme standard features.num_stats.histograms et dans features.string_stats.rank_histogram *.
NO_DATA_IN_SPAN
- Type d'anomalie non détecté dans TFDV
SPARSE_FEATURE_MISSING_VALUE
- Champs de schéma :
  - sparse_feature.value_feature
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "missing_value" comme nom et
  - statistique personnalisée missing_value != 0
SPARSE_FEATURE_MISSING_INDEX
- Champs de schéma :
  - sparse_feature.index_feature
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "missing_index" comme nom et
  - la statistique personnalisée missing_index contient n'importe quelle valeur != 0
SPARSE_FEATURE_LENGTH_MISMATCH
- Champs de schéma :
  - sparse_feature.value_feature
  - sparse_feature.index_feature
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "min_length_diff" ou "max_length_diff" comme nom
  - La statistique personnalisée min_length_diff ou max_length_diff contient n'importe quelle valeur != 0
SPARSE_FEATURE_NAME_COLLISION
- Champs de schéma :
  - sparse_feature.name
  - sparse_feature.lifecycle_stage
  - feature.name
  - feature.lifecycle_stage
- Condition de détection :
  - sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED , et
  - feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED , et
  - sparse_feature.name == feature.name
SEMANTIC_DOMAIN_UPDATE
- Champs de schéma :
  - feature.domain_info
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "domain_info" comme nom et
  - feature.domain_info n'est pas déjà défini dans le schéma et
  - il existe une seule statistique personnalisée domain_info pour la fonctionnalité
COMPARATOR_LOW_NUM_EXAMPLES
- Champs de schéma :
  - schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
  - schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
- Champs statistiques :
  - num_examples *
- Condition de détection :
  - num_examples * > 0 et
  - le précédent proto de statistiques est disponible et
  - num_examples * / statistiques précédentes num_examples * < comparator min_fraction_threshold
COMPARATOR_HIGH_NUM_EXAMPLES
- Champs de schéma :
  - schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
  - schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
- Champs statistiques :
  - num_examples *
- Condition de détection :
  - num_examples * > 0 et
  - le précédent proto de statistiques est disponible et
  - num_examples * / statistiques précédentes num_examples * > comparateur max_fraction_threshold
DATASET_LOW_NUM_EXAMPLES
- Champs de schéma :
  - schema.dataset_constraints.min_examples_count
- Champs statistiques :
  - num_examples *
- Condition de détection :
  - num_examples * < dataset_constraints.min_examples_count
DATASET_HIGH_NUM_EXAMPLES
- Champs de schéma :
  - schema.dataset_constraints.max_examples_count
- Champs statistiques :
  - num_examples *
- Condition de détection :
  - num_examples * > dataset_constraints.max_examples_count
WEIGHTED_FEATURE_NAME_COLLISION
- Champs de schéma :
  - weighted_feature.name
  - weighted_feature.lifecycle_stage
  - sparse_feature.name
  - sparse_feature.lifecycle_stage
  - feature.name
  - feature.lifecycle_stage
- Condition de détection :
  - weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED et soit
    - si feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED ,
      - weighted_feature.name == feature.name ; ou
    - si sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG ou DEPRECATED ,
      - weighted_feature.name == sparse_feature.name
WEIGHTED_FEATURE_MISSING_VALUE
- Champs de schéma :
  - weighted_feature.feature
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "missing_value" comme nom et
  - statistique personnalisée missing_value != 0
WEIGHTED_FEATURE_MISSING_WEIGHT
- Champs de schéma :
  - weighted_feature.weight_feature
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "missing_weight" comme nom et
  - statistique personnalisée missing_weight != 0
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Champs de schéma :
  - weighted_feature.feature
  - weighted_feature.weight_feature
- Champs statistiques :
  - features.custom_stats
- Condition de détection :
  - features.custom_stats avec "min_weighted_length_diff" ou "max_weight_length_diff" comme nom, et
  - min_weight_length_diff ou max_weight_length_diff statistique personnalisée != 0
VALUE_NESTEDNESS_MISMATCH
- Champs de schéma :
  - feature.value_count
  - feature.value_counts
- Champs statistiques :
  - features.common_stats.presence_and_valency_stats
- Condition de détection :
  - feature.value_count est spécifié, et il y a une répétition presence_and_valency_stats de la fonctionnalité (qui indique un niveau d'imbrication supérieur à un) et
  - feature.value_counts est spécifié et le nombre de fois que les presence_and_valency_stats de la fonctionnalité sont répétées ne correspond pas au nombre de fois que value_count est répété dans feature.value_counts
DOMAIN_INVALID_FOR_TYPE
- Champs de schéma :
  - feature.type
  - feature.domain_info
- Champs statistiques :
  - features.type
- Condition de détection :
  - Si features.type == BYTES ,
    - feature.domain_info est d'un type incompatible ; ou
  - si features.type != BYTES ,
    - feature.domain_info ne correspond pas à feature.type (par exemple, int_domain est spécifié, mais type de feature est FLOAT )
FEATURE_MISSING_NAME
- Champs de schéma :
  - feature.name
- Condition de détection :
  - feature.name n'est pas spécifié
FEATURE_MISSING_TYPE
- Champs de schéma :
  - feature.type
- Condition de détection :
  - feature.type n'est pas spécifié
INVALID_SCHEMA_SPECIFICATION
Remarque : Il existe différentes raisons pour lesquelles une anomalie de INVALID_SCHEMA_SPECIFICATION peut être générée. Chaque puce dans la condition de détection ci-dessous répertorie une raison indépendante.
- Champs de schéma :
  - feature.domain_info
  - feature.presence.min_fraction
  - feature.value_count.min
  - feature.value_count.max
  - feature.distribution_constraints
- Condition de détection :
  - feature.presence.min_fraction < 0,0 ou > 1,0, ou
  - feature.value_count.min < 0 ou > feature.value_count.max , ou
  - un domaine bool, int, float, struct ou sémantique est spécifié pour une fonctionnalité et feature.distribution_constraints est également spécifié pour cette fonctionnalité, ou
  - feature.distribution_constraints est spécifié pour une fonctionnalité, mais ni un domaine au niveau du schéma ni feature.string_domain n'est spécifié pour cette fonctionnalité
INVALID_DOMAIN_SPECIFICATION
Remarque : Il existe différentes raisons pour lesquelles une anomalie de INVALID_DOMAIN_SPECIFICATION peut être générée. Chaque puce dans la condition de détection ci-dessous répertorie une raison indépendante.
- Champs de schéma :
  - feature.domain_info
  - feature.bool_domain
  - feature.string_domain
- Condition de détection :
  - Le type feature.domain_info inconnu est spécifié ou
  - feature.domain est spécifié, mais aucun domaine correspondant n'est spécifié au niveau du schéma, ou
  - si feature.bool_domain , feature.bool_domain.true_value et feature.bool_domain.false_value sont spécifiés,
    - feature.bool_domain.true_value == feature.bool_domain.false_value , ou
  - si feature.string_domain est spécifié,
    - a dupliqué feature.string_domain.values ou
    - feature.string_domain dépasse la taille maximale
UNEXPECTED_DATA_TYPE
- Champs de schéma :
  - feature.type
- Champs statistiques :
  - features.type
- Condition de détection :
  - features.type n'est pas du type spécifié dans feature.type
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Champs de schéma :
  - feature.natural_language_domain.token_constraints.min_per_sequence
- Champs statistiques :
  - features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
- Condition de détection :
  - min_per_sequence > per_sequence_min_frequency
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Champs de schéma :
  - feature.natural_language_domain.token_constraints.max_per_sequence
- Champs statistiques :
  - features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
- Condition de détection :
  - max_per_sequence < per_sequence_max_frequency
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Champs de schéma :
  - feature.natural_language_domain.token_constraints.min_fraction_of_sequences
- Champs statistiques :
  - features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
- Condition de détection :
  - min_fraction_of_sequences > fraction_of_sequences
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Champs de schéma :
  - feature.natural_language_domain.token_constraints.max_fraction_of_sequences
- Champs statistiques :
  - features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
- Condition de détection :
  - max_fraction_of_sequences < fraction_of_sequences
FEATURE_COVERAGE_TOO_LOW
- Champs de schéma :
  - feature.natural_language_domain.coverage.min_coverage
- Champs statistiques :
  - features.custom_stats.nl_statistics.feature_coverage
- Condition de détection :
  - feature_coverage < coverage.min_coverage
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Champs de schéma :
  - feature.natural_language_domain.coverage.min_avg_token_length
- Champs statistiques :
  - features.custom_stats.nl_statistics.avg_token_length
- Condition de détection :
  - avg_token_length < min_avg_token_length
NLP_WRONG_LOCATION
- Type d'anomalie non détecté dans TFDV
EMBEDDING_SHAPE_INVALID
- Type d'anomalie non détecté dans TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Champs de schéma :
  - feature.image_domain.max_image_byte_size
- Champs statistiques :
  - features.bytes_stats.max_num_bytes_int
- Condition de détection :
  - max_num_bytes_int > max_image_byte_size
INVALID_FEATURE_SHAPE
- Champs de schéma :
  - feature.shape
- Champs statistiques :
  - features.common_stats.num_missing
  - features.common_stats.min_num_values
  - features.common_stats.max_num_values
  - features.common_stats.presence_and_valency_stats.num_missing
  - features.common_stats.presence_and_valency_stats.min_num_values
  - features.common_stats.presence_and_valency_stats.max_num_values
  - features.common_stats.weighted_presence_and_valency_stats
- Condition de détection :
  - feature.shape est spécifié, et soit
    - la fonctionnalité peut être manquante ( num_missing != 0) à un certain niveau de nid ou
    - la fonctionnalité peut avoir un nombre variable de valeurs ( min_num_values != max_num_values ) à un certain niveau de nid ou
    - la forme spécifiée n'est pas compatible avec les statistiques de nombre de valeurs de l'entité. Par exemple, la forme [16] est compatible avec ( min_num_values == max_num_values == [2, 2, 4] (pour une fonctionnalité à 3 imbrications))
STATS_NOT_AVAILBLE
- Une anomalie se produit lorsque les statistiques nécessaires pour valider les contraintes ne sont pas présentes.
DERIVED_FEATURE_BAD_LIFECYCLE
- Champs de schéma :
  - feature.lifecycle_stage
- Champs statistiques :
  - features.validation_derived_source
- Condition de détection :
  - feature.lifecycle_stage n'est ni DERIVED ni DISABLED , et features.validation_derived_source est présent, indiquant qu'il s'agit d'une fonctionnalité dérivée.
DERIVED_FEATURE_INVALID_SOURCE
- Champs de schéma :
  - feature.validation_derived_source
- Champs statistiques :
  - features.validation_derived_source
- Condition de détection :
  - features.validation_derived_source est présent pour une fonctionnalité, mais le feature.validation_derived_source correspondant ne l'est pas.

* Si une statistique pondérée est disponible pour ce champ, elle sera utilisée à la place de la statistique non pondérée.

Référence sur les anomalies de validation des données TensorFlow Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Référence sur les anomalies de validation des données TensorFlow