TFDV vérifie les anomalies en comparant un schéma et des prototypes de statistiques. Le tableau suivant répertorie les types d'anomalies que TFDV peut détecter, les champs de schéma et de statistiques utilisés pour détecter chaque type d'anomalie et les conditions dans lesquelles chaque type d'anomalie est détecté.
BOOL_TYPE_BIG_INT- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.num_stats.max -
features.type
-
- Condition de détection :
-
feature.bool_domainest spécifié et -
features.type==INTet -
features.num_stats.max> 1
-
- Champs de schéma :
BOOL_TYPE_BYTES_NOT_INT- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_BYTES_NOT_STRING- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_FLOAT_NOT_INT- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_FLOAT_NOT_STRING- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_INT_NOT_STRING- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_SMALL_INT- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.num_stats.min -
features.type
-
- Condition de détection :
-
features.type==INTet -
feature.bool_domainest spécifié et -
features.num_stats.min< 0
-
- Champs de schéma :
BOOL_TYPE_STRING_NOT_INT- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_UNEXPECTED_STRING- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.string_stats.rank_histogram*
-
- Condition de détection :
-
features.type==STRINGet -
feature.bool_domainest spécifié et - au moins une valeur dans
rank_histogram* n'est pasfeature.bool_domain.true_valueoufeature.bool_domain.false_value
-
- Champs de schéma :
BOOL_TYPE_UNEXPECTED_FLOAT- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.num_stats.min -
features.num_stats.max -
features.num_stats.histograms.num_nan -
features.num_stats.histograms.buckets.low_value -
features.num_stats.histograms.buckets.high_value -
features.type
-
- Condition de détection :
-
features.type==FLOATet -
feature.bool_domainest spécifié et soit- (
features.num_stats.min!= 0 oufeatures.num_stats.min!= 1) ou - (
features.num_stats.max!= 0 oufeatures.num_stats.max!= 1) ou -
features.num_stats.histograms.num_nan> 0 ou - (
features.num_stats.histograms.buckets.low_value!= 0 oufeatures.num_stats.histograms.buckets.high_value!= 1) etfeatures.num_stats.histograms.buckets.sample_count> 0
- (
-
- Champs de schéma :
BOOL_TYPE_INVALID_CONFIG- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.type
-
- Condition de détection :
- Si
features.type==INTouFLOAT,-
feature.bool_domainest spécifié et -
feature.bool_domain.true_valueoufeature.bool_domain.false_valueest spécifié, ou
-
- si
features.type==STRING,-
feature.bool_domainest spécifié et -
feature.bool_domain.true_valueetfeature.bool_domain.false_valuene sont pas spécifiés
-
- Si
- Champs de schéma :
ENUM_TYPE_BYTES_NOT_STRING- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_FLOAT_NOT_STRING- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_INT_NOT_STRING- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_INVALID_UTF8- Champs statistiques :
-
features.string_stats.invalid_utf8_count
-
- Condition de détection :
-
invalid_utf8_count> 0
-
- Champs statistiques :
ENUM_TYPE_UNEXPECTED_STRING_VALUES- Champs de schéma :
-
string_domainetfeature.domain; oufeature.string_domain -
feature.distribution_constraints.min_domain_mass
-
- Champs statistiques :
-
features.string_stats.rank_histogram*
-
- Condition de détection :
- Soit (nombre de valeurs dans
rank_histogram* qui ne sont pas dans le domaine / nombre total de valeurs) > (1 -feature.distribution_constraints.min_domain_mass) ou -
feature.distribution_constraints.min_domain_mass== 1.0 et il y a des valeurs dans l'histogramme qui ne sont pas dans le domaine
- Soit (nombre de valeurs dans
- Champs de schéma :
FEATURE_TYPE_HIGH_NUMBER_VALUES- Champs de schéma :
-
feature.value_count.max -
feature.value_counts.value_count.max
-
- Champs statistiques :
-
features.common_stats.max_num_values -
features.common_stats.presence_and_valency_stats.max_num_values
-
- Condition de détection :
- Si
feature.value_count.maxest spécifié-
features.common_stats.max_num_values>feature.value_count.max; ou
-
- si
feature.value_countsest spécifié-
feature.value_counts.value_count.max<features.common_stats.presence_and_valency_stats.max_num_valuesà un niveau d'imbrication donné
-
- Si
- Champs de schéma :
FEATURE_TYPE_LOW_FRACTION_PRESENT- Champs de schéma :
-
feature.presence.min_fraction
-
- Champs statistiques :
-
features.common_stats.num_non_missing* -
num_examples*
-
- Condition de détection :
-
feature.presence.min_fractionest spécifié et (features.common_stats.num_non_missing* /num_examples*) <feature.presence.min_fractionou -
feature.presence.min_fraction== 1.0 etcommon_stats.num_missing!= 0
-
- Champs de schéma :
FEATURE_TYPE_LOW_NUMBER_PRESENT- Champs de schéma :
-
feature.presence.min_count
-
- Champs statistiques :
-
features.common_stats.num_non_missing*
-
- Condition de détection :
-
feature.presence.min_countest spécifié et soit-
features.common_stats.num_non_missing* == 0 ou -
features.common_stats.num_non_missing* <feature.presence.min_count
-
-
- Champs de schéma :
FEATURE_TYPE_LOW_NUMBER_VALUES- Champs de schéma :
-
feature.value_count.min -
feature.value_counts.value_count.min
-
- Champs statistiques :
-
features.common_stats.min_num_values -
features.common_stats.presence_and_valency_stats.min_num_values
-
- Condition de détection :
- Si
feature.value_count.minest spécifié-
features.common_stats.min_num_values<feature.value_count.min; ou
-
- si
feature.value_countsest spécifié-
features.common_stats.presence_and_valency_stats.min_num_values<feature.value_counts.value_count.minà un niveau d'imbrication donné
-
- Si
- Champs de schéma :
FEATURE_TYPE_NOT_PRESENT- Champs de schéma :
-
feature.in_environmentoufeature.not_in_environmentouschema.default_environment -
feature.lifecycle_stage -
feature.presence.min_countoufeature.presence.min_fraction
-
- Champs statistiques :
-
features.common_stats.num_non_missing*
-
- Condition de détection :
-
feature.lifecycle_stagepas dans [PLANNED,ALPHA,DEBUG,DEPRECATED] et -
common_stats.num_non_missing* == 0 et - (
feature.presence.min_count> 0 oufeature.presence.min_fraction> 0) et soit-
feature.in_environment== environnement actuel ou -
feature.not_in_environment!= environnement actuel ou -
schema.default_environment!= environnement actuel
-
-
- Champs de schéma :
FEATURE_TYPE_NO_VALUES- Type d'anomalie non détecté dans TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED- Type d'anomalie non détecté dans TFDV
FEATURE_TYPE_HIGH_UNIQUE- Champs de schéma :
-
feature.unique_constraints.max
-
- Champs statistiques :
-
features.string_stats.unique
-
- Condition de détection :
-
features.string_stats.unique>feature.unique_constraints.max
-
- Champs de schéma :
FEATURE_TYPE_LOW_UNIQUE- Champs de schéma :
-
feature.unique_constraints.min
-
- Champs statistiques :
-
features.string_stats.unique
-
- Condition de détection :
-
features.string_stats.unique<feature.unique_constraints.min
-
- Champs de schéma :
FEATURE_TYPE_NO_UNIQUE- Champs de schéma :
-
feature.unique_constraints
-
- Champs statistiques :
-
features.string_stats.unique
-
- Condition de détection :
-
feature.unique_constraintsspécifié mais pasfeatures.string_stats.uniqueprésent (comme c'est le cas lorsque la fonctionnalité n'est pas une chaîne ou une catégorie)
-
- Champs de schéma :
FLOAT_TYPE_BIG_FLOAT- Champs de schéma :
-
feature.float_domain.max
-
- Champs statistiques :
-
features.type -
features.num_stats.maxoufeatures.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type==FLOAT,-
features.num_stats.max>feature.float_domain.max; ou
-
- si
features.type==BYTESouSTRING,- valeur maximale dans
features.string_stats.rank_histogram(lorsqu'il est converti en float) >feature.float_domain.max
- valeur maximale dans
- Si
- Champs de schéma :
FLOAT_TYPE_NOT_FLOAT- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_SMALL_FLOAT- Champs de schéma :
-
feature.float_domain.min
-
- Champs statistiques :
-
features.type -
features.num_stats.minoufeatures.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type==FLOAT,-
features.num_stats.min<feature.float_domain.min; ou
-
- si
features.type==BYTESouSTRING,- valeur minimale dans
features.string_stats.rank_histogram(lorsqu'il est converti en float) <feature.float_domain.min
- valeur minimale dans
- Si
- Champs de schéma :
FLOAT_TYPE_STRING_NOT_FLOAT- Champs de schéma :
-
feature.float_domain
-
- Champs statistiques :
-
features.type -
features.string_stats.rank_histogram
-
- Condition de détection :
-
features.type==BYTESouSTRINGet -
features.string_stats.rank_histograma au moins une valeur qui ne peut pas être convertie en flottant
-
- Champs de schéma :
FLOAT_TYPE_NON_STRING- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_HAS_NAN- Champs de schéma :
-
feature.float_domain.disallow_nan
-
- Champs statistiques :
-
features.type -
features.num_stats.histograms.num_nan
-
- Condition de détection :
-
float_domain.disallow_nanest vrai et -
features.num_stats.histograms.num_nan> 0
-
- Champs de schéma :
FLOAT_TYPE_HAS_INF- Champs de schéma :
-
feature.float_domain.disallow_inf
-
- Champs statistiques :
-
features.type -
features.num_stats.min -
features.num_stats.max
-
- Condition de détection :
-
features.type==FLOAT -
float_domain.disallow_infest vrai et soit-
features.num_stats.min==inf/-infou -
features.num_stats.max==inf/-inf
-
-
- Champs de schéma :
INT_TYPE_BIG_INT- Champs de schéma :
-
feature.int_domain.max
-
- Champs statistiques :
-
features.type -
features.num_stats.max -
features.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type==INT,-
features.num_stats.max>feature.int_domain.max; ou
-
- si
features.type==BYTESouSTRING,- valeur maximale dans
features.string_stats.rank_histogram(lorsqu'il est converti en int) >feature.int_domain.max
- valeur maximale dans
- Si
- Champs de schéma :
INT_TYPE_INT_EXPECTED- Type d'anomalie non détecté dans TFDV
INT_TYPE_NOT_INT_STRING- Champs de schéma :
-
feature.int_domain
-
- Champs statistiques :
-
features.type -
features.string_stats.rank_histogram
-
- Condition de détection :
-
features.type==BYTESouSTRINGet -
features.string_stats.rank_histograma au moins une valeur qui ne peut pas être convertie en entier
-
- Champs de schéma :
INT_TYPE_NOT_STRING- Type d'anomalie non détecté dans TFDV
INT_TYPE_SMALL_INT- Champs de schéma :
-
feature.int_domain.min
-
- Champs statistiques :
-
features.type -
features.num_stats.min -
features.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type==INT,-
features.num_stats.min<feature.int_domain.min; ou
-
- si
features.type==BYTESouSTRING,- valeur minimale dans
features.string_stats.rank_histogram(lorsqu'il est converti en int) <feature.int_domain.min
- valeur minimale dans
- Si
- Champs de schéma :
INT_TYPE_STRING_EXPECTED- Type d'anomalie non détecté dans TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER- Type d'anomalie non détecté dans TFDV
LOW_SUPPORTED_IMAGE_FRACTION- Champs de schéma :
-
feature.image_domain.minimum_supported_image_fraction
-
- Champs statistiques :
-
features.custom_stats.rank_histogrampour les custom_stats avec le nomimage_format_histogram. Notez que les statistiques de domaine sémantique doivent être activées pour que l'image_format_histogram soit générée et pour que cette validation soit effectuée. Les statistiques de domaine sémantique ne sont pas générées par défaut.
-
- Condition de détection :
- La fraction des valeurs prises en charge par les types d'images Tensorflow pour tous les types d'images est inférieure à
feature.image_domain.minimum_supported_image_fraction.
- La fraction des valeurs prises en charge par les types d'images Tensorflow pour tous les types d'images est inférieure à
- Champs de schéma :
SCHEMA_MISSING_COLUMN- Champs de schéma :
-
feature.in_environmentoufeature.not_in_environmentouschema.default_environment -
feature.lifecycle_stage -
feature.presence.min_countoufeature.presence.min_fraction
-
- Condition de détection :
-
feature.lifecycle_stage!=PLANNED,ALPHA,DEBUGouDEPRECATEDet -
feature.presence.min_count> 0 oufeature.presence.min_fraction> 0 et -
feature.in_environment== environnement actuel oufeature.not_in_environment!= environnement actuel ouschema.default_environment!= environnement actuel et - aucune fonctionnalité avec le nom/chemin spécifié n'est trouvée dans le protocole de statistiques
-
- Champs de schéma :
SCHEMA_NEW_COLUMN- Condition de détection :
- il y a une fonctionnalité dans le protocole de statistiques mais aucune fonctionnalité avec son nom/chemin dans le protocole de schéma
- Condition de détection :
SCHEMA_TRAINING_SERVING_SKEW- Type d'anomalie non détecté dans TFDV
STRING_TYPE_NOW_FLOAT- Type d'anomalie non détecté dans TFDV
STRING_TYPE_NOW_INT- Type d'anomalie non détecté dans TFDV
COMPARATOR_CONTROL_DATA_MISSING- Champs de schéma :
-
feature.skew_comparator.infinity_norm.threshold -
feature.drift_comparator.infinity_norm.threshold
-
- Condition de détection :
- le proto des statistiques de contrôle (c'est-à-dire, les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) est disponible mais ne contient pas la fonctionnalité spécifiée
- Champs de schéma :
COMPARATOR_TREATMENT_DATA_MISSING- Type d'anomalie non détecté dans TFDV
COMPARATOR_L_INFTY_HIGH- Champs de schéma :
-
feature.skew_comparator.infinity_norm.threshold -
feature.drift_comparator.infinity_norm.threshold
-
- Champs statistiques :
-
features.string_stats.rank_histogram*
-
- Condition de détection :
- Norme L-infini du vecteur qui représente la différence entre les décomptes normalisés de
features.string_stats.rank_histogram* dans les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour skew ou statistiques actuelles pour la dérive) >feature.skew_comparator.infinity_norm.thresholdoufeature.drift_comparator.infinity_norm.threshold
- Norme L-infini du vecteur qui représente la différence entre les décomptes normalisés de
- Champs de schéma :
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH- Champs de schéma :
-
feature.skew_comparator.normalized_abs_difference.threshold -
feature.drift_comparator.normalized_abs_difference.threshold
-
- Champs statistiques :
-
features.string_stats.rank_histogram
-
- Condition de détection :
- La différence de comptage absolu normalisée des valeurs compte à partir de
features.string_stats.rank_histogramdans les statistiques de contrôle (c'est-à-dire, les statistiques de service pour l'inclinaison ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire, les statistiques d'entraînement pour l'inclinaison ou les statistiques actuelles pour la dérive) dépassées feature.skew_comparator.normalized_abs_difference.threshold ou feature.drift_comparator.normalized_abs_difference.threshold. Les différences de comptage sont normalisées par le nombre total dans les deux conditions.
- La différence de comptage absolu normalisée des valeurs compte à partir de
- Champs de schéma :
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH- Champs de schéma :
-
feature.skew_comparator.jensen_shannon_divergence.threshold -
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- Champs statistiques :
-
features.num_stats.histogramsde typeSTANDARD -
features.string_stats.rank_histogram*
-
- Condition de détection :
- Divergence approximative de Jensen-Shannon calculée entre les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour le biais ou les statistiques actuelles pour la dérive) >
feature.skew_comparator.jensen_shannon_divergence.thresholdoufeature.drift_comparator.jensen_shannon_divergence.threshold. La divergence approximative de Jensen-Shannon est calculée sur la base des nombres d'échantillons normalisés dans l'histogramme standardfeatures.num_stats.histogramset dansfeatures.string_stats.rank_histogram*.
- Divergence approximative de Jensen-Shannon calculée entre les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour le biais ou les statistiques actuelles pour la dérive) >
- Champs de schéma :
NO_DATA_IN_SPAN- Type d'anomalie non détecté dans TFDV
SPARSE_FEATURE_MISSING_VALUE- Champs de schéma :
-
sparse_feature.value_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "missing_value" comme nom et - statistique personnalisée
missing_value!= 0
-
- Champs de schéma :
SPARSE_FEATURE_MISSING_INDEX- Champs de schéma :
-
sparse_feature.index_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "missing_index" comme nom et - la statistique personnalisée
missing_indexcontient n'importe quelle valeur != 0
-
- Champs de schéma :
SPARSE_FEATURE_LENGTH_MISMATCH- Champs de schéma :
-
sparse_feature.value_feature -
sparse_feature.index_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "min_length_diff" ou "max_length_diff" comme nom - La statistique personnalisée
min_length_diffoumax_length_diffcontient n'importe quelle valeur != 0
-
- Champs de schéma :
SPARSE_FEATURE_NAME_COLLISION- Champs de schéma :
-
sparse_feature.name -
sparse_feature.lifecycle_stage -
feature.name -
feature.lifecycle_stage
-
- Condition de détection :
-
sparse_feature.lifecycle_stage!=PLANNED,ALPHA,DEBUGouDEPRECATED, et -
feature.lifecycle_stage!=PLANNED,ALPHA,DEBUGouDEPRECATED, et -
sparse_feature.name==feature.name
-
- Champs de schéma :
SEMANTIC_DOMAIN_UPDATE- Champs de schéma :
-
feature.domain_info
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "domain_info" comme nom et -
feature.domain_infon'est pas déjà défini dans le schéma et - il existe une seule statistique personnalisée
domain_infopour la fonctionnalité
-
- Champs de schéma :
COMPARATOR_LOW_NUM_EXAMPLES- Champs de schéma :
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold -
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- Champs statistiques :
-
num_examples*
-
- Condition de détection :
-
num_examples* > 0 et - le précédent proto de statistiques est disponible et
-
num_examples* / statistiques précédentesnum_examples* < comparatormin_fraction_threshold
-
- Champs de schéma :
COMPARATOR_HIGH_NUM_EXAMPLES- Champs de schéma :
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold -
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- Champs statistiques :
-
num_examples*
-
- Condition de détection :
-
num_examples* > 0 et - le précédent proto de statistiques est disponible et
-
num_examples* / statistiques précédentesnum_examples* > comparateurmax_fraction_threshold
-
- Champs de schéma :
DATASET_LOW_NUM_EXAMPLES- Champs de schéma :
-
schema.dataset_constraints.min_examples_count
-
- Champs statistiques :
-
num_examples*
-
- Condition de détection :
-
num_examples* <dataset_constraints.min_examples_count
-
- Champs de schéma :
DATASET_HIGH_NUM_EXAMPLES- Champs de schéma :
-
schema.dataset_constraints.max_examples_count
-
- Champs statistiques :
-
num_examples*
-
- Condition de détection :
-
num_examples* >dataset_constraints.max_examples_count
-
- Champs de schéma :
WEIGHTED_FEATURE_NAME_COLLISION- Champs de schéma :
-
weighted_feature.name -
weighted_feature.lifecycle_stage -
sparse_feature.name -
sparse_feature.lifecycle_stage -
feature.name -
feature.lifecycle_stage
-
- Condition de détection :
-
weighted_feature.lifecycle_stage!=PLANNED,ALPHA,DEBUGouDEPRECATEDet soit- si
feature.lifecycle_stage!=PLANNED,ALPHA,DEBUGouDEPRECATED,-
weighted_feature.name==feature.name; ou
-
- si
sparse_feature.lifecycle_stage!=PLANNED,ALPHA,DEBUGouDEPRECATED,-
weighted_feature.name==sparse_feature.name
-
- si
-
- Champs de schéma :
WEIGHTED_FEATURE_MISSING_VALUE- Champs de schéma :
-
weighted_feature.feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "missing_value" comme nom et - statistique personnalisée
missing_value!= 0
-
- Champs de schéma :
WEIGHTED_FEATURE_MISSING_WEIGHT- Champs de schéma :
-
weighted_feature.weight_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "missing_weight" comme nom et - statistique personnalisée
missing_weight!= 0
-
- Champs de schéma :
WEIGHTED_FEATURE_LENGTH_MISMATCH- Champs de schéma :
-
weighted_feature.feature -
weighted_feature.weight_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_statsavec "min_weighted_length_diff" ou "max_weight_length_diff" comme nom, et -
min_weight_length_diffoumax_weight_length_diffstatistique personnalisée != 0
-
- Champs de schéma :
VALUE_NESTEDNESS_MISMATCH- Champs de schéma :
-
feature.value_count -
feature.value_counts
-
- Champs statistiques :
-
features.common_stats.presence_and_valency_stats
-
- Condition de détection :
-
feature.value_countest spécifié, et il y a une répétitionpresence_and_valency_statsde la fonctionnalité (qui indique un niveau d'imbrication supérieur à un) et -
feature.value_countsest spécifié et le nombre de fois que lespresence_and_valency_statsde la fonctionnalité sont répétées ne correspond pas au nombre de fois quevalue_countest répété dansfeature.value_counts
-
- Champs de schéma :
DOMAIN_INVALID_FOR_TYPE- Champs de schéma :
-
feature.type -
feature.domain_info
-
- Champs statistiques :
-
features.type
-
- Condition de détection :
- Si
features.type==BYTES,-
feature.domain_infoest d'un type incompatible ; ou
-
- si
features.type!=BYTES,-
feature.domain_infone correspond pas àfeature.type(par exemple,int_domainest spécifié, maistypede feature estFLOAT)
-
- Si
- Champs de schéma :
FEATURE_MISSING_NAME- Champs de schéma :
-
feature.name
-
- Condition de détection :
-
feature.namen'est pas spécifié
-
- Champs de schéma :
FEATURE_MISSING_TYPE- Champs de schéma :
-
feature.type
-
- Condition de détection :
-
feature.typen'est pas spécifié
-
- Champs de schéma :
INVALID_SCHEMA_SPECIFICATION- Champs de schéma :
-
feature.domain_info -
feature.presence.min_fraction -
feature.value_count.min -
feature.value_count.max -
feature.distribution_constraints
-
- Condition de détection :
-
feature.presence.min_fraction< 0,0 ou > 1,0, ou -
feature.value_count.min< 0 ou >feature.value_count.max, ou - un domaine bool, int, float, struct ou sémantique est spécifié pour une fonctionnalité et
feature.distribution_constraintsest également spécifié pour cette fonctionnalité, ou -
feature.distribution_constraintsest spécifié pour une fonctionnalité, mais ni un domaine au niveau du schéma nifeature.string_domainn'est spécifié pour cette fonctionnalité
-
- Champs de schéma :
INVALID_DOMAIN_SPECIFICATION- Champs de schéma :
-
feature.domain_info -
feature.bool_domain -
feature.string_domain
-
- Condition de détection :
- Le type
feature.domain_infoinconnu est spécifié ou -
feature.domainest spécifié, mais aucun domaine correspondant n'est spécifié au niveau du schéma, ou - si
feature.bool_domain,feature.bool_domain.true_valueetfeature.bool_domain.false_valuesont spécifiés,-
feature.bool_domain.true_value==feature.bool_domain.false_value, ou
-
- si
feature.string_domainest spécifié,- a dupliqué
feature.string_domain.valuesou -
feature.string_domaindépasse la taille maximale
- a dupliqué
- Le type
- Champs de schéma :
UNEXPECTED_DATA_TYPE- Champs de schéma :
-
feature.type
-
- Champs statistiques :
-
features.type
-
- Condition de détection :
-
features.typen'est pas du type spécifié dansfeature.type
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES- Champs de schéma :
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- Condition de détection :
-
min_per_sequence>per_sequence_min_frequency
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES- Champs de schéma :
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- Condition de détection :
-
max_per_sequence<per_sequence_max_frequency
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_SMALL_FRACTION- Champs de schéma :
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Condition de détection :
-
min_fraction_of_sequences>fraction_of_sequences
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_LARGE_FRACTION- Champs de schéma :
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Condition de détection :
-
max_fraction_of_sequences<fraction_of_sequences
-
- Champs de schéma :
FEATURE_COVERAGE_TOO_LOW- Champs de schéma :
-
feature.natural_language_domain.coverage.min_coverage
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.feature_coverage
-
- Condition de détection :
-
feature_coverage<coverage.min_coverage
-
- Champs de schéma :
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH- Champs de schéma :
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.avg_token_length
-
- Condition de détection :
-
avg_token_length<min_avg_token_length
-
- Champs de schéma :
NLP_WRONG_LOCATION- Type d'anomalie non détecté dans TFDV
EMBEDDING_SHAPE_INVALID- Type d'anomalie non détecté dans TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED- Champs de schéma :
-
feature.image_domain.max_image_byte_size
-
- Champs statistiques :
-
features.bytes_stats.max_num_bytes_int
-
- Condition de détection :
-
max_num_bytes_int>max_image_byte_size
-
- Champs de schéma :
INVALID_FEATURE_SHAPE- Champs de schéma :
-
feature.shape
-
- Champs statistiques :
-
features.common_stats.num_missing -
features.common_stats.min_num_values -
features.common_stats.max_num_values -
features.common_stats.presence_and_valency_stats.num_missing -
features.common_stats.presence_and_valency_stats.min_num_values -
features.common_stats.presence_and_valency_stats.max_num_values -
features.common_stats.weighted_presence_and_valency_stats
-
- Condition de détection :
-
feature.shapeest spécifié, et soit- la fonctionnalité peut être manquante (
num_missing!= 0) à un certain niveau de nid ou - la fonctionnalité peut avoir un nombre variable de valeurs (
min_num_values!=max_num_values) à un certain niveau de nid ou - la forme spécifiée n'est pas compatible avec les statistiques de nombre de valeurs de l'entité. Par exemple, la forme
[16]est compatible avec (min_num_values==max_num_values==[2, 2, 4](pour une fonctionnalité à 3 imbrications))
- la fonctionnalité peut être manquante (
-
- Champs de schéma :
STATS_NOT_AVAILBLE- Une anomalie se produit lorsque les statistiques nécessaires pour valider les contraintes ne sont pas présentes.
DERIVED_FEATURE_BAD_LIFECYCLE- Champs de schéma :
-
feature.lifecycle_stage
-
- Champs statistiques :
-
features.validation_derived_source
-
- Condition de détection :
-
feature.lifecycle_stagen'est niDERIVEDniDISABLED, etfeatures.validation_derived_sourceest présent, indiquant qu'il s'agit d'une fonctionnalité dérivée.
-
- Champs de schéma :
DERIVED_FEATURE_INVALID_SOURCE- Champs de schéma :
-
feature.validation_derived_source
-
- Champs statistiques :
-
features.validation_derived_source
-
- Condition de détection :
-
features.validation_derived_sourceest présent pour une fonctionnalité, mais lefeature.validation_derived_sourcecorrespondant ne l'est pas.
-
- Champs de schéma :
* Si une statistique pondérée est disponible pour ce champ, elle sera utilisée à la place de la statistique non pondérée.