Riferimento sulle anomalie di convalida dei dati di TensorFlow

TFDV controlla le anomalie confrontando uno schema e prototipi statistici. Il grafico seguente elenca i tipi di anomalia che TFDV può rilevare, i campi dello schema e delle statistiche utilizzati per rilevare ogni tipo di anomalia e le condizioni in cui viene rilevato ogni tipo di anomalia.

  • BOOL_TYPE_BIG_INT

    • Campi dello schema:
      • feature.bool_domain
    • Campi statistici:
      • features.num_stats.max
      • features.type
    • Condizione di rilevamento:
      • feature.bool_domain è specificato e
      • features.type == INT e
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_SMALL_INT

    • Campi dello schema:
      • feature.bool_domain
    • Campi statistici:
      • features.num_stats.min
      • features.type
    • Condizione di rilevamento:
      • features.type == INT e
      • feature.bool_domain è specificato e
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Campi dello schema:
      • feature.bool_domain
    • Campi statistici:
      • features.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • features.type == STRING e
      • feature.bool_domain è specificato e
      • almeno un valore in rank_histogram * non è feature.bool_domain.true_value o feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Campi dello schema:
      • feature.bool_domain
    • Campi statistici:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • Condizione di rilevamento:
      • features.type == FLOAT e
      • feature.bool_domain è specificato e uno dei due
        • ( features.num_stats.min != 0 o features.num_stats.min != 1) o
        • ( features.num_stats.max != 0 o features.num_stats.max != 1) o
        • features.num_stats.histograms.num_nan > 0 oppure
        • ( features.num_stats.histograms.buckets.low_value != 0 o features.num_stats.histograms.buckets.high_value != 1) e features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • Campi dello schema:
      • feature.bool_domain
    • Campi statistici:
      • features.type
    • Condizione di rilevamento:
      • Se features.type == INT o FLOAT ,
        • feature.bool_domain è specificato e
        • feature.bool_domain.true_value o feature.bool_domain.false_value è specificato, oppure
      • se features.type == STRING ,
        • feature.bool_domain è specificato e
        • feature.bool_domain.true_value e feature.bool_domain.false_value non sono specificati
  • ENUM_TYPE_BYTES_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Campi statistici:
      • features.string_stats.invalid_utf8_count
    • Condizione di rilevamento:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Campi dello schema:
      • string_domain e feature.domain ; o feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Campi statistici:
      • features.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • O (numero di valori in rank_histogram * che non sono nel dominio / numero totale di valori) > (1 - feature.distribution_constraints.min_domain_mass ) o
      • feature.distribution_constraints.min_domain_mass == 1.0 e ci sono valori nell'istogramma che non sono nel dominio
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Campi dello schema:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Campi statistici:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • Condizione di rilevamento:
      • Se feature.value_count.max è specificato
        • features.common_stats.max_num_values ​​> feature.value_count.max ; O
      • se feature.value_counts è specificato
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​a un determinato livello di nidificazione
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Campi dello schema:
      • feature.presence.min_fraction
    • Campi statistici:
      • features.common_stats.num_non_missing *
      • num_examples *
    • Condizione di rilevamento:
      • feature.presence.min_fraction è specificato e ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction o
      • feature.presence.min_fraction == 1.0 e common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Campi dello schema:
      • feature.presence.min_count
    • Campi statistici:
      • features.common_stats.num_non_missing *
    • Condizione di rilevamento:
      • feature.presence.min_count è specificato e uno dei due
        • features.common_stats.num_non_missing * == 0 o
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Campi dello schema:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Campi statistici:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • Condizione di rilevamento:
      • Se feature.value_count.min è specificato
        • features.common_stats.min_num_values ​​< feature.value_count.min ; O
      • se feature.value_counts è specificato
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min a un dato livello di nidificazione
  • FEATURE_TYPE_NOT_PRESENT

    • Campi dello schema:
      • feature.in_environment o feature.not_in_environment o schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count o feature.presence.min_fraction
    • Campi statistici:
      • features.common_stats.num_non_missing *
    • Condizione di rilevamento:
      • feature.lifecycle_stage non in [ PLANNED , ALPHA , DEBUG , DEPRECATED ] e
      • common_stats.num_non_missing * == 0 e
      • ( feature.presence.min_count > 0 o feature.presence.min_fraction > 0) e uno
        • feature.in_environment == ambiente corrente o
        • feature.not_in_environment != ambiente corrente o
        • schema.default_environment != ambiente corrente
  • FEATURE_TYPE_NO_VALUES

    • Tipo di anomalia non rilevato in TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Tipo di anomalia non rilevato in TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Campi dello schema:
      • feature.unique_constraints.max
    • Campi statistici:
      • features.string_stats.unique
    • Condizione di rilevamento:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Campi dello schema:
      • feature.unique_constraints.min
    • Campi statistici:
      • features.string_stats.unique
    • Condizione di rilevamento:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Campi dello schema:
      • feature.unique_constraints
    • Campi statistici:
      • features.string_stats.unique
    • Condizione di rilevamento:
      • feature.unique_constraints specificato ma nessun features.string_stats.unique presente (come nel caso in cui la caratteristica non è una stringa o una categoria)
  • FLOAT_TYPE_BIG_FLOAT

    • Campi dello schema:
      • feature.float_domain.max
    • Campi statistici:
      • features.type
      • features.num_stats.max o features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • Se features.type == FLOAT ,
        • features.num_stats.max > feature.float_domain.max ; O
      • se features.type == BYTES o STRING ,
        • valore massimo in features.string_stats.rank_histogram (quando convertito in float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Tipo di anomalia non rilevato in TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Campi dello schema:
      • feature.float_domain.min
    • Campi statistici:
      • features.type
      • features.num_stats.min o features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • Se features.type == FLOAT ,
        • features.num_stats.min < feature.float_domain.min ; O
      • se features.type == BYTES o STRING ,
        • valore minimo in features.string_stats.rank_histogram (quando convertito in float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Campi dello schema:
      • feature.float_domain
    • Campi statistici:
      • features.type
      • features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • features.type == BYTES o STRING e
      • features.string_stats.rank_histogram ha almeno un valore che non può essere convertito in float
  • FLOAT_TYPE_NON_STRING

    • Tipo di anomalia non rilevato in TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Tipo di anomalia non rilevato in TFDV
  • FLOAT_TYPE_HAS_NAN

    • Campi dello schema:
      • feature.float_domain.disallow_nan
    • Campi statistici:
      • features.type
      • features.num_stats.histograms.num_nan
    • Condizione di rilevamento:
      • float_domain.disallow_nan è vero e
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Campi dello schema:
      • feature.float_domain.disallow_inf
    • Campi statistici:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • Condizione di rilevamento:
      • features.type == FLOAT
      • float_domain.disallow_inf è vero e neanche
        • features.num_stats.min == inf/-inf o
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Campi dello schema:
      • feature.int_domain.max
    • Campi statistici:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • Se features.type == INT ,
        • features.num_stats.max > feature.int_domain.max ; O
      • se features.type == BYTES o STRING ,
        • valore massimo in features.string_stats.rank_histogram (se convertito in int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Tipo di anomalia non rilevato in TFDV
  • INT_TYPE_NOT_INT_STRING

    • Campi dello schema:
      • feature.int_domain
    • Campi statistici:
      • features.type
      • features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • features.type == BYTES o STRING e
      • features.string_stats.rank_histogram ha almeno un valore che non può essere convertito in un int
  • INT_TYPE_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • INT_TYPE_SMALL_INT

    • Campi dello schema:
      • feature.int_domain.min
    • Campi statistici:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • Se features.type == INT ,
        • features.num_stats.min < feature.int_domain.min ; O
      • se features.type == BYTES o STRING ,
        • valore minimo in features.string_stats.rank_histogram (se convertito in int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Tipo di anomalia non rilevato in TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Tipo di anomalia non rilevato in TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Campi dello schema:
      • feature.image_domain.minimum_supported_image_fraction
    • Campi statistici:
      • features.custom_stats.rank_histogram per custom_stats con nome image_format_histogram . Si noti che le statistiche del dominio semantico devono essere abilitate per la generazione di image_format_histogram e per l'esecuzione di questa convalida. Le statistiche del dominio semantico non vengono generate per impostazione predefinita.
    • Condizione di rilevamento:
      • La frazione di valori supportati dai tipi di immagine Tensorflow per tutti i tipi di immagine è inferiore a feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Campi dello schema:
      • feature.in_environment o feature.not_in_environment o schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count o feature.presence.min_fraction
    • Condizione di rilevamento:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • feature.presence.min_count > 0 o feature.presence.min_fraction > 0 e
      • feature.in_environment == ambiente corrente o feature.not_in_environment != ambiente corrente o schema.default_environment != ambiente corrente e
      • nessuna caratteristica con il nome/percorso specificato viene trovata nel protocollo delle statistiche
  • SCHEMA_NEW_COLUMN

    • Condizione di rilevamento:
      • c'è una funzione nel protocollo delle statistiche ma nessuna funzione con il suo nome/percorso nel protocollo dello schema
  • SCHEMA_TRAINING_SERVING_SKEW

    • Tipo di anomalia non rilevato in TFDV
  • STRING_TYPE_NOW_FLOAT

    • Tipo di anomalia non rilevato in TFDV
  • STRING_TYPE_NOW_INT

    • Tipo di anomalia non rilevato in TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Campi dello schema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Condizione di rilevamento:
      • il protocollo delle statistiche di controllo (ovvero, le statistiche di pubblicazione per l'asimmetria o le statistiche precedenti per la deriva) è disponibile ma non contiene la funzione specificata
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Tipo di anomalia non rilevato in TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Campi dello schema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Campi statistici:
      • features.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • L-infinity norm del vettore che rappresenta la differenza tra i conteggi normalizzati da features.string_stats.rank_histogram * nelle statistiche di controllo (ovvero le statistiche di servizio per lo skew o le statistiche precedenti per la deriva) e le statistiche di trattamento (ovvero le statistiche di addestramento per skew o statistiche correnti per la deriva) > feature.skew_comparator.infinity_norm.threshold o feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • Campi dello schema:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • Campi statistici:
      • features.string_stats.rank_histogram
    • Condizione di rilevamento:
      • La differenza di conteggio assoluta normalizzata dei conteggi di valore dal features.string_stats.rank_histogram nelle statistiche di controllo (ovvero, statistiche di pubblicazione per skew o statistiche precedenti per drift) e nelle statistiche di trattamento (ovvero, statistiche di addestramento per skew o statistiche correnti per drift) superate feature.skew_comparator.normalized_abs_difference.threshold o feature.drift_comparator.normalized_abs_difference.threshold. Le differenze di conteggio sono normalizzate dal conteggio totale in entrambe le condizioni.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Campi dello schema:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Campi statistici:
      • features.num_stats.histograms di tipo STANDARD
      • features.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • La divergenza approssimativa di Jensen-Shannon calcolata tra le statistiche di controllo (ad es. statistiche di servizio per l'asimmetria o statistiche precedenti per la deriva) e le statistiche di trattamento (ad es. statistiche di addestramento per l'asimmetria o statistiche correnti per la deriva) > feature.skew_comparator.jensen_shannon_divergence.threshold o feature.drift_comparator.jensen_shannon_divergence.threshold . La divergenza Jensen-Shannon approssimativa viene calcolata in base ai conteggi dei campioni normalizzati sia in features.num_stats.histograms standard histogram che in features.string_stats.rank_histogram *.
  • NO_DATA_IN_SPAN

    • Tipo di anomalia non rilevato in TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Campi dello schema:
      • sparse_feature.value_feature
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "missing_value" come nome e
      • missing_value statistica personalizzata != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Campi dello schema:
      • sparse_feature.index_feature
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "missing_index" come nome e
      • La statistica personalizzata missing_index contiene qualsiasi valore != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Campi dello schema:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "min_length_diff" o "max_length_diff" come nome
      • La statistica personalizzata min_length_diff o max_length_diff contiene qualsiasi valore != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Campi dello schema:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condizione di rilevamento:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Campi dello schema:
      • feature.domain_info
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "domain_info" come nome e
      • feature.domain_info non è già impostato nello schema e
      • c'è una singola statistica personalizzata domain_info per la funzione
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples * > 0 e
      • è disponibile il protocollo statistico precedente e
      • num_examples * / statistiche precedenti num_examples * < comparatore min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples * > 0 e
      • è disponibile il protocollo statistico precedente e
      • num_examples * / statistiche precedenti num_examples * > comparatore max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.min_examples_count
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.max_examples_count
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Campi dello schema:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condizione di rilevamento:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e uno dei due
        • if feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED ,
          • weighted_feature.name == feature.name ; O
        • if sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED ,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Campi dello schema:
      • weighted_feature.feature
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "missing_value" come nome e
      • missing_value statistica personalizzata != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Campi dello schema:
      • weighted_feature.weight_feature
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "missing_weight" come nome e
      • statistica personalizzata missing_weight != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Campi dello schema:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Campi statistici:
      • features.custom_stats
    • Condizione di rilevamento:
      • features.custom_stats con "min_weighted_length_diff" o "max_weight_length_diff" come nome e
      • min_weight_length_diff o max_weight_length_diff statistica personalizzata != 0
  • VALUE_NESTEDNESS_MISMATCH

    • Campi dello schema:
      • feature.value_count
      • feature.value_counts
    • Campi statistici:
      • features.common_stats.presence_and_valency_stats
    • Condizione di rilevamento:
      • feature.value_count è specificato ed è presente un presence_and_valency_stats ripetuto della caratteristica (che indica un livello di nidificazione maggiore di uno) e
      • feature.value_counts è specificato e il numero di volte in cui viene ripetuto presence_and_valency_stats dell'elemento non corrisponde al numero di volte in cui value_count viene ripetuto all'interno di feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Campi dello schema:
      • feature.type
      • feature.domain_info
    • Campi statistici:
      • features.type
    • Condizione di rilevamento:
      • Se features.type == BYTES ,
        • feature.domain_info è di tipo incompatibile; O
      • se features.type != BYTES ,
        • feature.domain_info non corrisponde a feature.type (ad esempio, int_domain è specificato, ma type di funzionalità è FLOAT )
  • FEATURE_MISSING_NAME

    • Campi dello schema:
      • feature.name
    • Condizione di rilevamento:
      • feature.name non è specificato
  • FEATURE_MISSING_TYPE

    • Campi dello schema:
      • feature.type
    • Condizione di rilevamento:
      • feature.type non è specificato
  • INVALID_SCHEMA_SPECIFICATION

    • Campi dello schema:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Condizione di rilevamento:
      • feature.presence.min_fraction < 0.0 o > 1.0, o
      • feature.value_count.min < 0 o > feature.value_count.max , oppure
      • un dominio bool, int, float, struct o semantico è specificato per una caratteristica e anche feature.distribution_constraints è specificato per quella caratteristica, oppure
      • feature.distribution_constraints è specificato per una funzionalità, ma non è specificato né un dominio a livello di schema né feature.string_domain per quella funzionalità
  • INVALID_DOMAIN_SPECIFICATION

    • Campi dello schema:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Condizione di rilevamento:
      • Il tipo di feature.domain_info sconosciuto è specificato o
      • feature.domain è specificato, ma non esiste un dominio corrispondente specificato a livello di schema oppure
      • se feature.bool_domain , feature.bool_domain.true_value e feature.bool_domain.false_value sono specificati,
        • feature.bool_domain.true_value == feature.bool_domain.false_value , o
      • se feature.string_domain è specificato,
        • ha duplicato feature.string_domain.values ​​o
        • feature.string_domain supera la dimensione massima
  • UNEXPECTED_DATA_TYPE

    • Campi dello schema:
      • feature.type
    • Campi statistici:
      • features.type
    • Condizione di rilevamento:
      • features.type non è del tipo specificato in feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Campi statistici:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Condizione di rilevamento:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Campi statistici:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Condizione di rilevamento:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Campi statistici:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condizione di rilevamento:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Campi statistici:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condizione di rilevamento:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Campi dello schema:
      • feature.natural_language_domain.coverage.min_coverage
    • Campi statistici:
      • features.custom_stats.nl_statistics.feature_coverage
    • Condizione di rilevamento:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Campi dello schema:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Campi statistici:
      • features.custom_stats.nl_statistics.avg_token_length
    • Condizione di rilevamento:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Tipo di anomalia non rilevato in TFDV
  • EMBEDDING_SHAPE_INVALID

    • Tipo di anomalia non rilevato in TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Campi dello schema:
      • feature.image_domain.max_image_byte_size
    • Campi statistici:
      • features.bytes_stats.max_num_bytes_int
    • Condizione di rilevamento:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Campi dello schema:
      • feature.shape
    • Campi statistici:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • Condizione di rilevamento:
      • feature.shape è specificato e uno dei due
        • la funzione potrebbe mancare ( num_missing != 0) a qualche livello di nidificazione o
        • la caratteristica può avere un numero variabile di valori ( min_num_values ​​!= max_num_values ​​) a qualche livello di nidificazione o
        • la forma specificata non è compatibile con le statistiche di conteggio del valore dell'elemento. Ad esempio, la forma [16] è compatibile con ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (per una feature a 3 nidificazioni))
  • STATS_NOT_AVAILBLE

    • L'anomalia si verifica quando le statistiche necessarie per convalidare i vincoli non sono presenti.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Campi dello schema:
      • feature.lifecycle_stage
    • Campi statistici:
      • features.validation_derived_source
    • Condizione di rilevamento:
      • feature.lifecycle_stage non è uno tra DERIVED o DISABLED ed è presente features.validation_derived_source , a indicare che si tratta di una funzionalità derivata.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Campi dello schema:
      • feature.validation_derived_source
    • Campi statistici:
      • features.validation_derived_source
    • Condizione di rilevamento:
      • features.validation_derived_source è presente per una funzionalità, ma la feature.validation_derived_source corrispondente non lo è.

* Se per questo campo è disponibile una statistica ponderata, verrà utilizzata al posto della statistica non ponderata.