TFDV vérifie les anomalies en comparant un schéma et des prototypes de statistiques. Le tableau suivant répertorie les types d'anomalies que TFDV peut détecter, les champs de schéma et de statistiques utilisés pour détecter chaque type d'anomalie et les conditions dans lesquelles chaque type d'anomalie est détecté.
BOOL_TYPE_BIG_INT
- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.num_stats.max
-
features.type
-
- Condition de détection :
-
feature.bool_domain
est spécifié et -
features.type
==INT
et -
features.num_stats.max
> 1
-
- Champs de schéma :
BOOL_TYPE_BYTES_NOT_INT
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_INT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_SMALL_INT
- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.num_stats.min
-
features.type
-
- Condition de détection :
-
features.type
==INT
et -
feature.bool_domain
est spécifié et -
features.num_stats.min
< 0
-
- Champs de schéma :
BOOL_TYPE_STRING_NOT_INT
- Type d'anomalie non détecté dans TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.string_stats.rank_histogram
*
-
- Condition de détection :
-
features.type
==STRING
et -
feature.bool_domain
est spécifié et - au moins une valeur dans
rank_histogram
* n'est pasfeature.bool_domain.true_value
oufeature.bool_domain.false_value
-
- Champs de schéma :
BOOL_TYPE_UNEXPECTED_FLOAT
- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- Condition de détection :
-
features.type
==FLOAT
et -
feature.bool_domain
est spécifié et soit- (
features.num_stats.min
!= 0 oufeatures.num_stats.min
!= 1) ou - (
features.num_stats.max
!= 0 oufeatures.num_stats.max
!= 1) ou -
features.num_stats.histograms.num_nan
> 0 ou - (
features.num_stats.histograms.buckets.low_value
!= 0 oufeatures.num_stats.histograms.buckets.high_value
!= 1) etfeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- Champs de schéma :
BOOL_TYPE_INVALID_CONFIG
- Champs de schéma :
-
feature.bool_domain
-
- Champs statistiques :
-
features.type
-
- Condition de détection :
- Si
features.type
==INT
ouFLOAT
,-
feature.bool_domain
est spécifié et -
feature.bool_domain.true_value
oufeature.bool_domain.false_value
est spécifié, ou
-
- si
features.type
==STRING
,-
feature.bool_domain
est spécifié et -
feature.bool_domain.true_value
etfeature.bool_domain.false_value
ne sont pas spécifiés
-
- Si
- Champs de schéma :
ENUM_TYPE_BYTES_NOT_STRING
- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_INT_NOT_STRING
- Type d'anomalie non détecté dans TFDV
ENUM_TYPE_INVALID_UTF8
- Champs statistiques :
-
features.string_stats.invalid_utf8_count
-
- Condition de détection :
-
invalid_utf8_count
> 0
-
- Champs statistiques :
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Champs de schéma :
-
string_domain
etfeature.domain
; oufeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- Champs statistiques :
-
features.string_stats.rank_histogram
*
-
- Condition de détection :
- Soit (nombre de valeurs dans
rank_histogram
* qui ne sont pas dans le domaine / nombre total de valeurs) > (1 -feature.distribution_constraints.min_domain_mass
) ou -
feature.distribution_constraints.min_domain_mass
== 1.0 et il y a des valeurs dans l'histogramme qui ne sont pas dans le domaine
- Soit (nombre de valeurs dans
- Champs de schéma :
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Champs de schéma :
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- Champs statistiques :
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- Condition de détection :
- Si
feature.value_count.max
est spécifié-
features.common_stats.max_num_values
>feature.value_count.max
; ou
-
- si
feature.value_counts
est spécifié-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
à un niveau d'imbrication donné
-
- Si
- Champs de schéma :
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Champs de schéma :
-
feature.presence.min_fraction
-
- Champs statistiques :
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- Condition de détection :
-
feature.presence.min_fraction
est spécifié et (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
ou -
feature.presence.min_fraction
== 1.0 etcommon_stats.num_missing
!= 0
-
- Champs de schéma :
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Champs de schéma :
-
feature.presence.min_count
-
- Champs statistiques :
-
features.common_stats.num_non_missing
*
-
- Condition de détection :
-
feature.presence.min_count
est spécifié et soit-
features.common_stats.num_non_missing
* == 0 ou -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- Champs de schéma :
FEATURE_TYPE_LOW_NUMBER_VALUES
- Champs de schéma :
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- Champs statistiques :
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- Condition de détection :
- Si
feature.value_count.min
est spécifié-
features.common_stats.min_num_values
<feature.value_count.min
; ou
-
- si
feature.value_counts
est spécifié-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
à un niveau d'imbrication donné
-
- Si
- Champs de schéma :
FEATURE_TYPE_NOT_PRESENT
- Champs de schéma :
-
feature.in_environment
oufeature.not_in_environment
ouschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
oufeature.presence.min_fraction
-
- Champs statistiques :
-
features.common_stats.num_non_missing
*
-
- Condition de détection :
-
feature.lifecycle_stage
pas dans [PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] et -
common_stats.num_non_missing
* == 0 et - (
feature.presence.min_count
> 0 oufeature.presence.min_fraction
> 0) et soit-
feature.in_environment
== environnement actuel ou -
feature.not_in_environment
!= environnement actuel ou -
schema.default_environment
!= environnement actuel
-
-
- Champs de schéma :
FEATURE_TYPE_NO_VALUES
- Type d'anomalie non détecté dans TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Type d'anomalie non détecté dans TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Champs de schéma :
-
feature.unique_constraints.max
-
- Champs statistiques :
-
features.string_stats.unique
-
- Condition de détection :
-
features.string_stats.unique
>feature.unique_constraints.max
-
- Champs de schéma :
FEATURE_TYPE_LOW_UNIQUE
- Champs de schéma :
-
feature.unique_constraints.min
-
- Champs statistiques :
-
features.string_stats.unique
-
- Condition de détection :
-
features.string_stats.unique
<feature.unique_constraints.min
-
- Champs de schéma :
FEATURE_TYPE_NO_UNIQUE
- Champs de schéma :
-
feature.unique_constraints
-
- Champs statistiques :
-
features.string_stats.unique
-
- Condition de détection :
-
feature.unique_constraints
spécifié mais pasfeatures.string_stats.unique
présent (comme c'est le cas lorsque la fonctionnalité n'est pas une chaîne ou une catégorie)
-
- Champs de schéma :
FLOAT_TYPE_BIG_FLOAT
- Champs de schéma :
-
feature.float_domain.max
-
- Champs statistiques :
-
features.type
-
features.num_stats.max
oufeatures.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type
==FLOAT
,-
features.num_stats.max
>feature.float_domain.max
; ou
-
- si
features.type
==BYTES
ouSTRING
,- valeur maximale dans
features.string_stats.rank_histogram
(lorsqu'il est converti en float) >feature.float_domain.max
- valeur maximale dans
- Si
- Champs de schéma :
FLOAT_TYPE_NOT_FLOAT
- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_SMALL_FLOAT
- Champs de schéma :
-
feature.float_domain.min
-
- Champs statistiques :
-
features.type
-
features.num_stats.min
oufeatures.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type
==FLOAT
,-
features.num_stats.min
<feature.float_domain.min
; ou
-
- si
features.type
==BYTES
ouSTRING
,- valeur minimale dans
features.string_stats.rank_histogram
(lorsqu'il est converti en float) <feature.float_domain.min
- valeur minimale dans
- Si
- Champs de schéma :
FLOAT_TYPE_STRING_NOT_FLOAT
- Champs de schéma :
-
feature.float_domain
-
- Champs statistiques :
-
features.type
-
features.string_stats.rank_histogram
-
- Condition de détection :
-
features.type
==BYTES
ouSTRING
et -
features.string_stats.rank_histogram
a au moins une valeur qui ne peut pas être convertie en flottant
-
- Champs de schéma :
FLOAT_TYPE_NON_STRING
- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Type d'anomalie non détecté dans TFDV
FLOAT_TYPE_HAS_NAN
- Champs de schéma :
-
feature.float_domain.disallow_nan
-
- Champs statistiques :
-
features.type
-
features.num_stats.histograms.num_nan
-
- Condition de détection :
-
float_domain.disallow_nan
est vrai et -
features.num_stats.histograms.num_nan
> 0
-
- Champs de schéma :
FLOAT_TYPE_HAS_INF
- Champs de schéma :
-
feature.float_domain.disallow_inf
-
- Champs statistiques :
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- Condition de détection :
-
features.type
==FLOAT
-
float_domain.disallow_inf
est vrai et soit-
features.num_stats.min
==inf/-inf
ou -
features.num_stats.max
==inf/-inf
-
-
- Champs de schéma :
INT_TYPE_BIG_INT
- Champs de schéma :
-
feature.int_domain.max
-
- Champs statistiques :
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type
==INT
,-
features.num_stats.max
>feature.int_domain.max
; ou
-
- si
features.type
==BYTES
ouSTRING
,- valeur maximale dans
features.string_stats.rank_histogram
(lorsqu'il est converti en int) >feature.int_domain.max
- valeur maximale dans
- Si
- Champs de schéma :
INT_TYPE_INT_EXPECTED
- Type d'anomalie non détecté dans TFDV
INT_TYPE_NOT_INT_STRING
- Champs de schéma :
-
feature.int_domain
-
- Champs statistiques :
-
features.type
-
features.string_stats.rank_histogram
-
- Condition de détection :
-
features.type
==BYTES
ouSTRING
et -
features.string_stats.rank_histogram
a au moins une valeur qui ne peut pas être convertie en entier
-
- Champs de schéma :
INT_TYPE_NOT_STRING
- Type d'anomalie non détecté dans TFDV
INT_TYPE_SMALL_INT
- Champs de schéma :
-
feature.int_domain.min
-
- Champs statistiques :
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- Condition de détection :
- Si
features.type
==INT
,-
features.num_stats.min
<feature.int_domain.min
; ou
-
- si
features.type
==BYTES
ouSTRING
,- valeur minimale dans
features.string_stats.rank_histogram
(lorsqu'il est converti en int) <feature.int_domain.min
- valeur minimale dans
- Si
- Champs de schéma :
INT_TYPE_STRING_EXPECTED
- Type d'anomalie non détecté dans TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Type d'anomalie non détecté dans TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Champs de schéma :
-
feature.image_domain.minimum_supported_image_fraction
-
- Champs statistiques :
-
features.custom_stats.rank_histogram
pour les custom_stats avec le nomimage_format_histogram
. Notez que les statistiques de domaine sémantique doivent être activées pour que l'image_format_histogram soit générée et pour que cette validation soit effectuée. Les statistiques de domaine sémantique ne sont pas générées par défaut.
-
- Condition de détection :
- La fraction des valeurs prises en charge par les types d'images Tensorflow pour tous les types d'images est inférieure à
feature.image_domain.minimum_supported_image_fraction
.
- La fraction des valeurs prises en charge par les types d'images Tensorflow pour tous les types d'images est inférieure à
- Champs de schéma :
SCHEMA_MISSING_COLUMN
- Champs de schéma :
-
feature.in_environment
oufeature.not_in_environment
ouschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
oufeature.presence.min_fraction
-
- Condition de détection :
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
ouDEPRECATED
et -
feature.presence.min_count
> 0 oufeature.presence.min_fraction
> 0 et -
feature.in_environment
== environnement actuel oufeature.not_in_environment
!= environnement actuel ouschema.default_environment
!= environnement actuel et - aucune fonctionnalité avec le nom/chemin spécifié n'est trouvée dans le protocole de statistiques
-
- Champs de schéma :
SCHEMA_NEW_COLUMN
- Condition de détection :
- il y a une fonctionnalité dans le protocole de statistiques mais aucune fonctionnalité avec son nom/chemin dans le protocole de schéma
- Condition de détection :
SCHEMA_TRAINING_SERVING_SKEW
- Type d'anomalie non détecté dans TFDV
STRING_TYPE_NOW_FLOAT
- Type d'anomalie non détecté dans TFDV
STRING_TYPE_NOW_INT
- Type d'anomalie non détecté dans TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Champs de schéma :
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Condition de détection :
- le proto des statistiques de contrôle (c'est-à-dire, les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) est disponible mais ne contient pas la fonctionnalité spécifiée
- Champs de schéma :
COMPARATOR_TREATMENT_DATA_MISSING
- Type d'anomalie non détecté dans TFDV
COMPARATOR_L_INFTY_HIGH
- Champs de schéma :
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Champs statistiques :
-
features.string_stats.rank_histogram
*
-
- Condition de détection :
- Norme L-infini du vecteur qui représente la différence entre les décomptes normalisés de
features.string_stats.rank_histogram
* dans les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour skew ou statistiques actuelles pour la dérive) >feature.skew_comparator.infinity_norm.threshold
oufeature.drift_comparator.infinity_norm.threshold
- Norme L-infini du vecteur qui représente la différence entre les décomptes normalisés de
- Champs de schéma :
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Champs de schéma :
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- Champs statistiques :
-
features.string_stats.rank_histogram
-
- Condition de détection :
- La différence de comptage absolu normalisée des valeurs compte à partir de
features.string_stats.rank_histogram
dans les statistiques de contrôle (c'est-à-dire, les statistiques de service pour l'inclinaison ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire, les statistiques d'entraînement pour l'inclinaison ou les statistiques actuelles pour la dérive) dépassées feature.skew_comparator.normalized_abs_difference.threshold ou feature.drift_comparator.normalized_abs_difference.threshold. Les différences de comptage sont normalisées par le nombre total dans les deux conditions.
- La différence de comptage absolu normalisée des valeurs compte à partir de
- Champs de schéma :
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Champs de schéma :
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- Champs statistiques :
-
features.num_stats.histograms
de typeSTANDARD
-
features.string_stats.rank_histogram
*
-
- Condition de détection :
- Divergence approximative de Jensen-Shannon calculée entre les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour le biais ou les statistiques actuelles pour la dérive) >
feature.skew_comparator.jensen_shannon_divergence.threshold
oufeature.drift_comparator.jensen_shannon_divergence.threshold
. La divergence approximative de Jensen-Shannon est calculée sur la base des nombres d'échantillons normalisés dans l'histogramme standardfeatures.num_stats.histograms
et dansfeatures.string_stats.rank_histogram
*.
- Divergence approximative de Jensen-Shannon calculée entre les statistiques de contrôle (c'est-à-dire les statistiques de service pour le biais ou les statistiques précédentes pour la dérive) et les statistiques de traitement (c'est-à-dire les statistiques d'entraînement pour le biais ou les statistiques actuelles pour la dérive) >
- Champs de schéma :
NO_DATA_IN_SPAN
- Type d'anomalie non détecté dans TFDV
SPARSE_FEATURE_MISSING_VALUE
- Champs de schéma :
-
sparse_feature.value_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "missing_value" comme nom et - statistique personnalisée
missing_value
!= 0
-
- Champs de schéma :
SPARSE_FEATURE_MISSING_INDEX
- Champs de schéma :
-
sparse_feature.index_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "missing_index" comme nom et - la statistique personnalisée
missing_index
contient n'importe quelle valeur != 0
-
- Champs de schéma :
SPARSE_FEATURE_LENGTH_MISMATCH
- Champs de schéma :
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "min_length_diff" ou "max_length_diff" comme nom - La statistique personnalisée
min_length_diff
oumax_length_diff
contient n'importe quelle valeur != 0
-
- Champs de schéma :
SPARSE_FEATURE_NAME_COLLISION
- Champs de schéma :
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Condition de détection :
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
ouDEPRECATED
, et -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
ouDEPRECATED
, et -
sparse_feature.name
==feature.name
-
- Champs de schéma :
SEMANTIC_DOMAIN_UPDATE
- Champs de schéma :
-
feature.domain_info
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "domain_info" comme nom et -
feature.domain_info
n'est pas déjà défini dans le schéma et - il existe une seule statistique personnalisée
domain_info
pour la fonctionnalité
-
- Champs de schéma :
COMPARATOR_LOW_NUM_EXAMPLES
- Champs de schéma :
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- Champs statistiques :
-
num_examples
*
-
- Condition de détection :
-
num_examples
* > 0 et - le précédent proto de statistiques est disponible et
-
num_examples
* / statistiques précédentesnum_examples
* < comparatormin_fraction_threshold
-
- Champs de schéma :
COMPARATOR_HIGH_NUM_EXAMPLES
- Champs de schéma :
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- Champs statistiques :
-
num_examples
*
-
- Condition de détection :
-
num_examples
* > 0 et - le précédent proto de statistiques est disponible et
-
num_examples
* / statistiques précédentesnum_examples
* > comparateurmax_fraction_threshold
-
- Champs de schéma :
DATASET_LOW_NUM_EXAMPLES
- Champs de schéma :
-
schema.dataset_constraints.min_examples_count
-
- Champs statistiques :
-
num_examples
*
-
- Condition de détection :
-
num_examples
* <dataset_constraints.min_examples_count
-
- Champs de schéma :
DATASET_HIGH_NUM_EXAMPLES
- Champs de schéma :
-
schema.dataset_constraints.max_examples_count
-
- Champs statistiques :
-
num_examples
*
-
- Condition de détection :
-
num_examples
* >dataset_constraints.max_examples_count
-
- Champs de schéma :
WEIGHTED_FEATURE_NAME_COLLISION
- Champs de schéma :
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Condition de détection :
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
ouDEPRECATED
et soit- si
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
ouDEPRECATED
,-
weighted_feature.name
==feature.name
; ou
-
- si
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
ouDEPRECATED
,-
weighted_feature.name
==sparse_feature.name
-
- si
-
- Champs de schéma :
WEIGHTED_FEATURE_MISSING_VALUE
- Champs de schéma :
-
weighted_feature.feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "missing_value" comme nom et - statistique personnalisée
missing_value
!= 0
-
- Champs de schéma :
WEIGHTED_FEATURE_MISSING_WEIGHT
- Champs de schéma :
-
weighted_feature.weight_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "missing_weight" comme nom et - statistique personnalisée
missing_weight
!= 0
-
- Champs de schéma :
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Champs de schéma :
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- Champs statistiques :
-
features.custom_stats
-
- Condition de détection :
-
features.custom_stats
avec "min_weighted_length_diff" ou "max_weight_length_diff" comme nom, et -
min_weight_length_diff
oumax_weight_length_diff
statistique personnalisée != 0
-
- Champs de schéma :
VALUE_NESTEDNESS_MISMATCH
- Champs de schéma :
-
feature.value_count
-
feature.value_counts
-
- Champs statistiques :
-
features.common_stats.presence_and_valency_stats
-
- Condition de détection :
-
feature.value_count
est spécifié, et il y a une répétitionpresence_and_valency_stats
de la fonctionnalité (qui indique un niveau d'imbrication supérieur à un) et -
feature.value_counts
est spécifié et le nombre de fois que lespresence_and_valency_stats
de la fonctionnalité sont répétées ne correspond pas au nombre de fois quevalue_count
est répété dansfeature.value_counts
-
- Champs de schéma :
DOMAIN_INVALID_FOR_TYPE
- Champs de schéma :
-
feature.type
-
feature.domain_info
-
- Champs statistiques :
-
features.type
-
- Condition de détection :
- Si
features.type
==BYTES
,-
feature.domain_info
est d'un type incompatible ; ou
-
- si
features.type
!=BYTES
,-
feature.domain_info
ne correspond pas àfeature.type
(par exemple,int_domain
est spécifié, maistype
de feature estFLOAT
)
-
- Si
- Champs de schéma :
FEATURE_MISSING_NAME
- Champs de schéma :
-
feature.name
-
- Condition de détection :
-
feature.name
n'est pas spécifié
-
- Champs de schéma :
FEATURE_MISSING_TYPE
- Champs de schéma :
-
feature.type
-
- Condition de détection :
-
feature.type
n'est pas spécifié
-
- Champs de schéma :
INVALID_SCHEMA_SPECIFICATION
- Champs de schéma :
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- Condition de détection :
-
feature.presence.min_fraction
< 0,0 ou > 1,0, ou -
feature.value_count.min
< 0 ou >feature.value_count.max
, ou - un domaine bool, int, float, struct ou sémantique est spécifié pour une fonctionnalité et
feature.distribution_constraints
est également spécifié pour cette fonctionnalité, ou -
feature.distribution_constraints
est spécifié pour une fonctionnalité, mais ni un domaine au niveau du schéma nifeature.string_domain
n'est spécifié pour cette fonctionnalité
-
- Champs de schéma :
INVALID_DOMAIN_SPECIFICATION
- Champs de schéma :
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- Condition de détection :
- Le type
feature.domain_info
inconnu est spécifié ou -
feature.domain
est spécifié, mais aucun domaine correspondant n'est spécifié au niveau du schéma, ou - si
feature.bool_domain
,feature.bool_domain.true_value
etfeature.bool_domain.false_value
sont spécifiés,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
, ou
-
- si
feature.string_domain
est spécifié,- a dupliqué
feature.string_domain.values
ou -
feature.string_domain
dépasse la taille maximale
- a dupliqué
- Le type
- Champs de schéma :
UNEXPECTED_DATA_TYPE
- Champs de schéma :
-
feature.type
-
- Champs statistiques :
-
features.type
-
- Condition de détection :
-
features.type
n'est pas du type spécifié dansfeature.type
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Champs de schéma :
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- Condition de détection :
-
min_per_sequence
>per_sequence_min_frequency
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Champs de schéma :
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- Condition de détection :
-
max_per_sequence
<per_sequence_max_frequency
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Champs de schéma :
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Condition de détection :
-
min_fraction_of_sequences
>fraction_of_sequences
-
- Champs de schéma :
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Champs de schéma :
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Condition de détection :
-
max_fraction_of_sequences
<fraction_of_sequences
-
- Champs de schéma :
FEATURE_COVERAGE_TOO_LOW
- Champs de schéma :
-
feature.natural_language_domain.coverage.min_coverage
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.feature_coverage
-
- Condition de détection :
-
feature_coverage
<coverage.min_coverage
-
- Champs de schéma :
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Champs de schéma :
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- Champs statistiques :
-
features.custom_stats.nl_statistics.avg_token_length
-
- Condition de détection :
-
avg_token_length
<min_avg_token_length
-
- Champs de schéma :
NLP_WRONG_LOCATION
- Type d'anomalie non détecté dans TFDV
EMBEDDING_SHAPE_INVALID
- Type d'anomalie non détecté dans TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Champs de schéma :
-
feature.image_domain.max_image_byte_size
-
- Champs statistiques :
-
features.bytes_stats.max_num_bytes_int
-
- Condition de détection :
-
max_num_bytes_int
>max_image_byte_size
-
- Champs de schéma :
INVALID_FEATURE_SHAPE
- Champs de schéma :
-
feature.shape
-
- Champs statistiques :
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- Condition de détection :
-
feature.shape
est spécifié, et soit- la fonctionnalité peut être manquante (
num_missing
!= 0) à un certain niveau de nid ou - la fonctionnalité peut avoir un nombre variable de valeurs (
min_num_values
!=max_num_values
) à un certain niveau de nid ou - la forme spécifiée n'est pas compatible avec les statistiques de nombre de valeurs de l'entité. Par exemple, la forme
[16]
est compatible avec (min_num_values
==max_num_values
==[2, 2, 4]
(pour une fonctionnalité à 3 imbrications))
- la fonctionnalité peut être manquante (
-
- Champs de schéma :
STATS_NOT_AVAILBLE
- Une anomalie se produit lorsque les statistiques nécessaires pour valider les contraintes ne sont pas présentes.
DERIVED_FEATURE_BAD_LIFECYCLE
- Champs de schéma :
-
feature.lifecycle_stage
-
- Champs statistiques :
-
features.validation_derived_source
-
- Condition de détection :
-
feature.lifecycle_stage
n'est niDERIVED
niDISABLED
, etfeatures.validation_derived_source
est présent, indiquant qu'il s'agit d'une fonctionnalité dérivée.
-
- Champs de schéma :
DERIVED_FEATURE_INVALID_SOURCE
- Champs de schéma :
-
feature.validation_derived_source
-
- Champs statistiques :
-
features.validation_derived_source
-
- Condition de détection :
-
features.validation_derived_source
est présent pour une fonctionnalité, mais lefeature.validation_derived_source
correspondant ne l'est pas.
-
- Champs de schéma :
* Si une statistique pondérée est disponible pour ce champ, elle sera utilisée à la place de la statistique non pondérée.