Questa pagina è stata tradotta dall'API Cloud Translation.

Riferimento alle anomalie di convalida dei dati di TensorFlow

TFDV controlla le anomalie confrontando uno schema e prototipi statistici. Il grafico seguente elenca i tipi di anomalia che TFDV può rilevare, i campi dello schema e delle statistiche utilizzati per rilevare ogni tipo di anomalia e le condizioni in cui viene rilevato ogni tipo di anomalia.

BOOL_TYPE_BIG_INT
- Campi dello schema:
  - feature.bool_domain
- Campi statistici:
  - features.num_stats.max
  - features.type
- Condizione di rilevamento:
  - feature.bool_domain è specificato e
  - features.type == INT e
  - features.num_stats.max > 1
BOOL_TYPE_BYTES_NOT_INT
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_INT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_SMALL_INT
- Campi dello schema:
  - feature.bool_domain
- Campi statistici:
  - features.num_stats.min
  - features.type
- Condizione di rilevamento:
  - features.type == INT e
  - feature.bool_domain è specificato e
  - features.num_stats.min < 0
BOOL_TYPE_STRING_NOT_INT
- Tipo di anomalia non rilevato in TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Campi dello schema:
  - feature.bool_domain
- Campi statistici:
  - features.string_stats.rank_histogram *
- Condizione di rilevamento:
  - features.type == STRING e
  - feature.bool_domain è specificato e
  - almeno un valore in rank_histogram * non è feature.bool_domain.true_value o feature.bool_domain.false_value
BOOL_TYPE_UNEXPECTED_FLOAT
- Campi dello schema:
  - feature.bool_domain
- Campi statistici:
  - features.num_stats.min
  - features.num_stats.max
  - features.num_stats.histograms.num_nan
  - features.num_stats.histograms.buckets.low_value
  - features.num_stats.histograms.buckets.high_value
  - features.type
- Condizione di rilevamento:
  - features.type == FLOAT e
  - feature.bool_domain è specificato e uno dei due
    - ( features.num_stats.min != 0 o features.num_stats.min != 1) o
    - ( features.num_stats.max != 0 o features.num_stats.max != 1) o
    - features.num_stats.histograms.num_nan > 0 oppure
    - ( features.num_stats.histograms.buckets.low_value != 0 o features.num_stats.histograms.buckets.high_value != 1) e features.num_stats.histograms.buckets.sample_count > 0
BOOL_TYPE_INVALID_CONFIG
- Campi dello schema:
  - feature.bool_domain
- Campi statistici:
  - features.type
- Condizione di rilevamento:
  - Se features.type == INT o FLOAT ,
    - feature.bool_domain è specificato e
    - feature.bool_domain.true_value o feature.bool_domain.false_value è specificato, oppure
  - se features.type == STRING ,
    - feature.bool_domain è specificato e
    - feature.bool_domain.true_value e feature.bool_domain.false_value non sono specificati
ENUM_TYPE_BYTES_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
ENUM_TYPE_INT_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
ENUM_TYPE_INVALID_UTF8
- Campi statistici:
  - features.string_stats.invalid_utf8_count
- Condizione di rilevamento:
  - invalid_utf8_count > 0
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Campi dello schema:
  - string_domain e feature.domain ; o feature.string_domain
  - feature.distribution_constraints.min_domain_mass
- Campi statistici:
  - features.string_stats.rank_histogram *
- Condizione di rilevamento:
  - O (numero di valori in rank_histogram * che non sono nel dominio / numero totale di valori) > (1 - feature.distribution_constraints.min_domain_mass ) o
  - feature.distribution_constraints.min_domain_mass == 1.0 e ci sono valori nell'istogramma che non sono nel dominio
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Campi dello schema:
  - feature.value_count.max
  - feature.value_counts.value_count.max
- Campi statistici:
  - features.common_stats.max_num_values
  - features.common_stats.presence_and_valency_stats.max_num_values
- Condizione di rilevamento:
  - Se feature.value_count.max è specificato
    - features.common_stats.max_num_values > feature.value_count.max ; O
  - se feature.value_counts è specificato
    - feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values a un determinato livello di nidificazione
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Campi dello schema:
  - feature.presence.min_fraction
- Campi statistici:
  - features.common_stats.num_non_missing *
  - num_examples *
- Condizione di rilevamento:
  - feature.presence.min_fraction è specificato e ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction o
  - feature.presence.min_fraction == 1.0 e common_stats.num_missing != 0
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Campi dello schema:
  - feature.presence.min_count
- Campi statistici:
  - features.common_stats.num_non_missing *
- Condizione di rilevamento:
  - feature.presence.min_count è specificato e uno dei due
    - features.common_stats.num_non_missing * == 0 o
    - features.common_stats.num_non_missing * < feature.presence.min_count
FEATURE_TYPE_LOW_NUMBER_VALUES
- Campi dello schema:
  - feature.value_count.min
  - feature.value_counts.value_count.min
- Campi statistici:
  - features.common_stats.min_num_values
  - features.common_stats.presence_and_valency_stats.min_num_values
- Condizione di rilevamento:
  - Se feature.value_count.min è specificato
    - features.common_stats.min_num_values < feature.value_count.min ; O
  - se feature.value_counts è specificato
    - features.common_stats.presence_and_valency_stats.min_num_values < feature.value_counts.value_count.min a un dato livello di nidificazione
FEATURE_TYPE_NOT_PRESENT
- Campi dello schema:
  - feature.in_environment o feature.not_in_environment o schema.default_environment
  - feature.lifecycle_stage
  - feature.presence.min_count o feature.presence.min_fraction
- Campi statistici:
  - features.common_stats.num_non_missing *
- Condizione di rilevamento:
  - feature.lifecycle_stage non in [ PLANNED , ALPHA , DEBUG , DEPRECATED ] e
  - common_stats.num_non_missing * == 0 e
  - ( feature.presence.min_count > 0 o feature.presence.min_fraction > 0) e uno
    - feature.in_environment == ambiente corrente o
    - feature.not_in_environment != ambiente corrente o
    - schema.default_environment != ambiente corrente
FEATURE_TYPE_NO_VALUES
- Tipo di anomalia non rilevato in TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Tipo di anomalia non rilevato in TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Campi dello schema:
  - feature.unique_constraints.max
- Campi statistici:
  - features.string_stats.unique
- Condizione di rilevamento:
  - features.string_stats.unique > feature.unique_constraints.max
FEATURE_TYPE_LOW_UNIQUE
- Campi dello schema:
  - feature.unique_constraints.min
- Campi statistici:
  - features.string_stats.unique
- Condizione di rilevamento:
  - features.string_stats.unique < feature.unique_constraints.min
FEATURE_TYPE_NO_UNIQUE
- Campi dello schema:
  - feature.unique_constraints
- Campi statistici:
  - features.string_stats.unique
- Condizione di rilevamento:
  - feature.unique_constraints specificato ma nessun features.string_stats.unique presente (come nel caso in cui la caratteristica non è una stringa o una categoria)
FLOAT_TYPE_BIG_FLOAT
- Campi dello schema:
  - feature.float_domain.max
- Campi statistici:
  - features.type
  - features.num_stats.max o features.string_stats.rank_histogram
- Condizione di rilevamento:
  - Se features.type == FLOAT ,
    - features.num_stats.max > feature.float_domain.max ; O
  - se features.type == BYTES o STRING ,
    - valore massimo in features.string_stats.rank_histogram (quando convertito in float) > feature.float_domain.max
FLOAT_TYPE_NOT_FLOAT
- Tipo di anomalia non rilevato in TFDV
FLOAT_TYPE_SMALL_FLOAT
- Campi dello schema:
  - feature.float_domain.min
- Campi statistici:
  - features.type
  - features.num_stats.min o features.string_stats.rank_histogram
- Condizione di rilevamento:
  - Se features.type == FLOAT ,
    - features.num_stats.min < feature.float_domain.min ; O
  - se features.type == BYTES o STRING ,
    - valore minimo in features.string_stats.rank_histogram (quando convertito in float) < feature.float_domain.min
FLOAT_TYPE_STRING_NOT_FLOAT
- Campi dello schema:
  - feature.float_domain
- Campi statistici:
  - features.type
  - features.string_stats.rank_histogram
- Condizione di rilevamento:
  - features.type == BYTES o STRING e
  - features.string_stats.rank_histogram ha almeno un valore che non può essere convertito in float
FLOAT_TYPE_NON_STRING
- Tipo di anomalia non rilevato in TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Tipo di anomalia non rilevato in TFDV
FLOAT_TYPE_HAS_NAN
- Campi dello schema:
  - feature.float_domain.disallow_nan
- Campi statistici:
  - features.type
  - features.num_stats.histograms.num_nan
- Condizione di rilevamento:
  - float_domain.disallow_nan è vero e
  - features.num_stats.histograms.num_nan > 0
FLOAT_TYPE_HAS_INF
- Campi dello schema:
  - feature.float_domain.disallow_inf
- Campi statistici:
  - features.type
  - features.num_stats.min
  - features.num_stats.max
- Condizione di rilevamento:
  - features.type == FLOAT
  - float_domain.disallow_inf è vero e neanche
    - features.num_stats.min == inf/-inf o
    - features.num_stats.max == inf/-inf
INT_TYPE_BIG_INT
- Campi dello schema:
  - feature.int_domain.max
- Campi statistici:
  - features.type
  - features.num_stats.max
  - features.string_stats.rank_histogram
- Condizione di rilevamento:
  - Se features.type == INT ,
    - features.num_stats.max > feature.int_domain.max ; O
  - se features.type == BYTES o STRING ,
    - valore massimo in features.string_stats.rank_histogram (se convertito in int) > feature.int_domain.max
INT_TYPE_INT_EXPECTED
- Tipo di anomalia non rilevato in TFDV
INT_TYPE_NOT_INT_STRING
- Campi dello schema:
  - feature.int_domain
- Campi statistici:
  - features.type
  - features.string_stats.rank_histogram
- Condizione di rilevamento:
  - features.type == BYTES o STRING e
  - features.string_stats.rank_histogram ha almeno un valore che non può essere convertito in un int
INT_TYPE_NOT_STRING
- Tipo di anomalia non rilevato in TFDV
INT_TYPE_SMALL_INT
- Campi dello schema:
  - feature.int_domain.min
- Campi statistici:
  - features.type
  - features.num_stats.min
  - features.string_stats.rank_histogram
- Condizione di rilevamento:
  - Se features.type == INT ,
    - features.num_stats.min < feature.int_domain.min ; O
  - se features.type == BYTES o STRING ,
    - valore minimo in features.string_stats.rank_histogram (se convertito in int) < feature.int_domain.min
INT_TYPE_STRING_EXPECTED
- Tipo di anomalia non rilevato in TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Tipo di anomalia non rilevato in TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Campi dello schema:
  - feature.image_domain.minimum_supported_image_fraction
- Campi statistici:
  - features.custom_stats.rank_histogram per custom_stats con nome image_format_histogram . Si noti che le statistiche del dominio semantico devono essere abilitate per la generazione di image_format_histogram e per l'esecuzione di questa convalida. Le statistiche del dominio semantico non vengono generate per impostazione predefinita.
- Condizione di rilevamento:
  - La frazione di valori supportati dai tipi di immagine Tensorflow per tutti i tipi di immagine è inferiore a feature.image_domain.minimum_supported_image_fraction .
SCHEMA_MISSING_COLUMN
- Campi dello schema:
  - feature.in_environment o feature.not_in_environment o schema.default_environment
  - feature.lifecycle_stage
  - feature.presence.min_count o feature.presence.min_fraction
- Condizione di rilevamento:
  - feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
  - feature.presence.min_count > 0 o feature.presence.min_fraction > 0 e
  - feature.in_environment == ambiente corrente o feature.not_in_environment != ambiente corrente o schema.default_environment != ambiente corrente e
  - nessuna caratteristica con il nome/percorso specificato viene trovata nel protocollo delle statistiche
SCHEMA_NEW_COLUMN
- Condizione di rilevamento:
  - c'è una funzione nel protocollo delle statistiche ma nessuna funzione con il suo nome/percorso nel protocollo dello schema
SCHEMA_TRAINING_SERVING_SKEW
- Tipo di anomalia non rilevato in TFDV
STRING_TYPE_NOW_FLOAT
- Tipo di anomalia non rilevato in TFDV
STRING_TYPE_NOW_INT
- Tipo di anomalia non rilevato in TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Campi dello schema:
  - feature.skew_comparator.infinity_norm.threshold
  - feature.drift_comparator.infinity_norm.threshold
- Condizione di rilevamento:
  - il protocollo delle statistiche di controllo (ovvero, le statistiche di pubblicazione per l'asimmetria o le statistiche precedenti per la deriva) è disponibile ma non contiene la funzione specificata
COMPARATOR_TREATMENT_DATA_MISSING
- Tipo di anomalia non rilevato in TFDV
COMPARATOR_L_INFTY_HIGH
- Campi dello schema:
  - feature.skew_comparator.infinity_norm.threshold
  - feature.drift_comparator.infinity_norm.threshold
- Campi statistici:
  - features.string_stats.rank_histogram *
- Condizione di rilevamento:
  - L-infinity norm del vettore che rappresenta la differenza tra i conteggi normalizzati da features.string_stats.rank_histogram * nelle statistiche di controllo (ovvero le statistiche di servizio per lo skew o le statistiche precedenti per la deriva) e le statistiche di trattamento (ovvero le statistiche di addestramento per skew o statistiche correnti per la deriva) > feature.skew_comparator.infinity_norm.threshold o feature.drift_comparator.infinity_norm.threshold
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Campi dello schema:
  - feature.skew_comparator.normalized_abs_difference.threshold
  - feature.drift_comparator.normalized_abs_difference.threshold
- Campi statistici:
  - features.string_stats.rank_histogram
- Condizione di rilevamento:
  - La differenza di conteggio assoluta normalizzata dei conteggi di valore dal features.string_stats.rank_histogram nelle statistiche di controllo (ovvero, statistiche di pubblicazione per skew o statistiche precedenti per drift) e nelle statistiche di trattamento (ovvero, statistiche di addestramento per skew o statistiche correnti per drift) superate feature.skew_comparator.normalized_abs_difference.threshold o feature.drift_comparator.normalized_abs_difference.threshold. Le differenze di conteggio sono normalizzate dal conteggio totale in entrambe le condizioni.
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Campi dello schema:
  - feature.skew_comparator.jensen_shannon_divergence.threshold
  - feature.drift_comparator.jensen_shannon_divergence.threshold
- Campi statistici:
  - features.num_stats.histograms di tipo STANDARD
  - features.string_stats.rank_histogram *
- Condizione di rilevamento:
  - La divergenza approssimativa di Jensen-Shannon calcolata tra le statistiche di controllo (ad es. statistiche di servizio per l'asimmetria o statistiche precedenti per la deriva) e le statistiche di trattamento (ad es. statistiche di addestramento per l'asimmetria o statistiche correnti per la deriva) > feature.skew_comparator.jensen_shannon_divergence.threshold o feature.drift_comparator.jensen_shannon_divergence.threshold . La divergenza Jensen-Shannon approssimativa viene calcolata in base ai conteggi dei campioni normalizzati sia in features.num_stats.histograms standard histogram che in features.string_stats.rank_histogram *.
NO_DATA_IN_SPAN
- Tipo di anomalia non rilevato in TFDV
SPARSE_FEATURE_MISSING_VALUE
- Campi dello schema:
  - sparse_feature.value_feature
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "missing_value" come nome e
  - missing_value statistica personalizzata != 0
SPARSE_FEATURE_MISSING_INDEX
- Campi dello schema:
  - sparse_feature.index_feature
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "missing_index" come nome e
  - La statistica personalizzata missing_index contiene qualsiasi valore != 0
SPARSE_FEATURE_LENGTH_MISMATCH
- Campi dello schema:
  - sparse_feature.value_feature
  - sparse_feature.index_feature
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "min_length_diff" o "max_length_diff" come nome
  - La statistica personalizzata min_length_diff o max_length_diff contiene qualsiasi valore != 0
SPARSE_FEATURE_NAME_COLLISION
- Campi dello schema:
  - sparse_feature.name
  - sparse_feature.lifecycle_stage
  - feature.name
  - feature.lifecycle_stage
- Condizione di rilevamento:
  - sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
  - feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
  - sparse_feature.name == feature.name
SEMANTIC_DOMAIN_UPDATE
- Campi dello schema:
  - feature.domain_info
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "domain_info" come nome e
  - feature.domain_info non è già impostato nello schema e
  - c'è una singola statistica personalizzata domain_info per la funzione
COMPARATOR_LOW_NUM_EXAMPLES
- Campi dello schema:
  - schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
  - schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
- Campi statistici:
  - num_examples *
- Condizione di rilevamento:
  - num_examples * > 0 e
  - è disponibile il protocollo statistico precedente e
  - num_examples * / statistiche precedenti num_examples * < comparatore min_fraction_threshold
COMPARATOR_HIGH_NUM_EXAMPLES
- Campi dello schema:
  - schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
  - schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
- Campi statistici:
  - num_examples *
- Condizione di rilevamento:
  - num_examples * > 0 e
  - è disponibile il protocollo statistico precedente e
  - num_examples * / statistiche precedenti num_examples * > comparatore max_fraction_threshold
DATASET_LOW_NUM_EXAMPLES
- Campi dello schema:
  - schema.dataset_constraints.min_examples_count
- Campi statistici:
  - num_examples *
- Condizione di rilevamento:
  - num_examples * < dataset_constraints.min_examples_count
DATASET_HIGH_NUM_EXAMPLES
- Campi dello schema:
  - schema.dataset_constraints.max_examples_count
- Campi statistici:
  - num_examples *
- Condizione di rilevamento:
  - num_examples * > dataset_constraints.max_examples_count
WEIGHTED_FEATURE_NAME_COLLISION
- Campi dello schema:
  - weighted_feature.name
  - weighted_feature.lifecycle_stage
  - sparse_feature.name
  - sparse_feature.lifecycle_stage
  - feature.name
  - feature.lifecycle_stage
- Condizione di rilevamento:
  - weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e uno dei due
    - if feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED ,
      - weighted_feature.name == feature.name ; O
    - if sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED ,
      - weighted_feature.name == sparse_feature.name
WEIGHTED_FEATURE_MISSING_VALUE
- Campi dello schema:
  - weighted_feature.feature
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "missing_value" come nome e
  - missing_value statistica personalizzata != 0
WEIGHTED_FEATURE_MISSING_WEIGHT
- Campi dello schema:
  - weighted_feature.weight_feature
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "missing_weight" come nome e
  - statistica personalizzata missing_weight != 0
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Campi dello schema:
  - weighted_feature.feature
  - weighted_feature.weight_feature
- Campi statistici:
  - features.custom_stats
- Condizione di rilevamento:
  - features.custom_stats con "min_weighted_length_diff" o "max_weight_length_diff" come nome e
  - min_weight_length_diff o max_weight_length_diff statistica personalizzata != 0
VALUE_NESTEDNESS_MISMATCH
- Campi dello schema:
  - feature.value_count
  - feature.value_counts
- Campi statistici:
  - features.common_stats.presence_and_valency_stats
- Condizione di rilevamento:
  - feature.value_count è specificato ed è presente un presence_and_valency_stats ripetuto della caratteristica (che indica un livello di nidificazione maggiore di uno) e
  - feature.value_counts è specificato e il numero di volte in cui viene ripetuto presence_and_valency_stats dell'elemento non corrisponde al numero di volte in cui value_count viene ripetuto all'interno di feature.value_counts
DOMAIN_INVALID_FOR_TYPE
- Campi dello schema:
  - feature.type
  - feature.domain_info
- Campi statistici:
  - features.type
- Condizione di rilevamento:
  - Se features.type == BYTES ,
    - feature.domain_info è di tipo incompatibile; O
  - se features.type != BYTES ,
    - feature.domain_info non corrisponde a feature.type (ad esempio, int_domain è specificato, ma type di funzionalità è FLOAT )
FEATURE_MISSING_NAME
- Campi dello schema:
  - feature.name
- Condizione di rilevamento:
  - feature.name non è specificato
FEATURE_MISSING_TYPE
- Campi dello schema:
  - feature.type
- Condizione di rilevamento:
  - feature.type non è specificato
INVALID_SCHEMA_SPECIFICATION
Nota: ci sono diversi motivi per cui può essere generata un'anomalia di INVALID_SCHEMA_SPECIFICATION . Ciascun punto elenco nella condizione di rilevamento di seguito elenca un motivo indipendente.
- Campi dello schema:
  - feature.domain_info
  - feature.presence.min_fraction
  - feature.value_count.min
  - feature.value_count.max
  - feature.distribution_constraints
- Condizione di rilevamento:
  - feature.presence.min_fraction < 0.0 o > 1.0, o
  - feature.value_count.min < 0 o > feature.value_count.max , oppure
  - un dominio bool, int, float, struct o semantico è specificato per una caratteristica e anche feature.distribution_constraints è specificato per quella caratteristica, oppure
  - feature.distribution_constraints è specificato per una funzionalità, ma non è specificato né un dominio a livello di schema né feature.string_domain per quella funzionalità
INVALID_DOMAIN_SPECIFICATION
Nota: ci sono diversi motivi per cui può essere generata un'anomalia di INVALID_DOMAIN_SPECIFICATION . Ciascun punto elenco nella condizione di rilevamento di seguito elenca un motivo indipendente.
- Campi dello schema:
  - feature.domain_info
  - feature.bool_domain
  - feature.string_domain
- Condizione di rilevamento:
  - Il tipo di feature.domain_info sconosciuto è specificato o
  - feature.domain è specificato, ma non esiste un dominio corrispondente specificato a livello di schema oppure
  - se feature.bool_domain , feature.bool_domain.true_value e feature.bool_domain.false_value sono specificati,
    - feature.bool_domain.true_value == feature.bool_domain.false_value , o
  - se feature.string_domain è specificato,
    - ha duplicato feature.string_domain.values o
    - feature.string_domain supera la dimensione massima
UNEXPECTED_DATA_TYPE
- Campi dello schema:
  - feature.type
- Campi statistici:
  - features.type
- Condizione di rilevamento:
  - features.type non è del tipo specificato in feature.type
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Campi dello schema:
  - feature.natural_language_domain.token_constraints.min_per_sequence
- Campi statistici:
  - features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
- Condizione di rilevamento:
  - min_per_sequence > per_sequence_min_frequency
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Campi dello schema:
  - feature.natural_language_domain.token_constraints.max_per_sequence
- Campi statistici:
  - features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
- Condizione di rilevamento:
  - max_per_sequence < per_sequence_max_frequency
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Campi dello schema:
  - feature.natural_language_domain.token_constraints.min_fraction_of_sequences
- Campi statistici:
  - features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
- Condizione di rilevamento:
  - min_fraction_of_sequences > fraction_of_sequences
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Campi dello schema:
  - feature.natural_language_domain.token_constraints.max_fraction_of_sequences
- Campi statistici:
  - features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
- Condizione di rilevamento:
  - max_fraction_of_sequences < fraction_of_sequences
FEATURE_COVERAGE_TOO_LOW
- Campi dello schema:
  - feature.natural_language_domain.coverage.min_coverage
- Campi statistici:
  - features.custom_stats.nl_statistics.feature_coverage
- Condizione di rilevamento:
  - feature_coverage < coverage.min_coverage
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Campi dello schema:
  - feature.natural_language_domain.coverage.min_avg_token_length
- Campi statistici:
  - features.custom_stats.nl_statistics.avg_token_length
- Condizione di rilevamento:
  - avg_token_length < min_avg_token_length
NLP_WRONG_LOCATION
- Tipo di anomalia non rilevato in TFDV
EMBEDDING_SHAPE_INVALID
- Tipo di anomalia non rilevato in TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Campi dello schema:
  - feature.image_domain.max_image_byte_size
- Campi statistici:
  - features.bytes_stats.max_num_bytes_int
- Condizione di rilevamento:
  - max_num_bytes_int > max_image_byte_size
INVALID_FEATURE_SHAPE
- Campi dello schema:
  - feature.shape
- Campi statistici:
  - features.common_stats.num_missing
  - features.common_stats.min_num_values
  - features.common_stats.max_num_values
  - features.common_stats.presence_and_valency_stats.num_missing
  - features.common_stats.presence_and_valency_stats.min_num_values
  - features.common_stats.presence_and_valency_stats.max_num_values
  - features.common_stats.weighted_presence_and_valency_stats
- Condizione di rilevamento:
  - feature.shape è specificato e uno dei due
    - la funzione potrebbe mancare ( num_missing != 0) a qualche livello di nidificazione o
    - la caratteristica può avere un numero variabile di valori ( min_num_values != max_num_values ) a qualche livello di nidificazione o
    - la forma specificata non è compatibile con le statistiche di conteggio del valore dell'elemento. Ad esempio, la forma [16] è compatibile con ( min_num_values == max_num_values == [2, 2, 4] (per una feature a 3 nidificazioni))
STATS_NOT_AVAILBLE
- L'anomalia si verifica quando le statistiche necessarie per convalidare i vincoli non sono presenti.
DERIVED_FEATURE_BAD_LIFECYCLE
- Campi dello schema:
  - feature.lifecycle_stage
- Campi statistici:
  - features.validation_derived_source
- Condizione di rilevamento:
  - feature.lifecycle_stage non è uno tra DERIVED o DISABLED ed è presente features.validation_derived_source , a indicare che si tratta di una funzionalità derivata.
DERIVED_FEATURE_INVALID_SOURCE
- Campi dello schema:
  - feature.validation_derived_source
- Campi statistici:
  - features.validation_derived_source
- Condizione di rilevamento:
  - features.validation_derived_source è presente per una funzionalità, ma la feature.validation_derived_source corrispondente non lo è.

* Se per questo campo è disponibile una statistica ponderata, verrà utilizzata al posto della statistica non ponderata.

Riferimento alle anomalie di convalida dei dati di TensorFlow Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Riferimento alle anomalie di convalida dei dati di TensorFlow