Riferimento sulle anomalie di convalida dei dati di TensorFlow

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

TFDV verifica la presenza di anomalie confrontando uno schema e prototipi di statistiche. Il grafico seguente elenca i tipi di anomalia che TFDV può rilevare, i campi dello schema e delle statistiche utilizzati per rilevare ogni tipo di anomalia e le condizioni in cui viene rilevato ogni tipo di anomalia.

  • BOOL_TYPE_BIG_INT

    • Campi dello schema:
      • feature.bool_domain
      • feature.type
    • Campi statistici:
      • feature.num_stats.max
    • Condizione di rilevamento:
      • feature.type == INT e
      • feature.bool_domain è specificato e
      • feature.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_SMALL_INT

    • Campi dello schema:
      • feature.bool_domain
      • feature.type
    • Campi statistici:
      • feature.num_stats.min
    • Condizione di rilevamento:
      • feature.type == INT e
      • feature.bool_domain è specificato e
      • feature.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Tipo di anomalia non rilevato in TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Campi dello schema:
      • feature.bool_domain
      • feature.type
    • Campi statistici:
      • feature.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • almeno un valore in rank_histogram non è feature.bool_domain.true_value o feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Campi dello schema:
      • feature.bool_domain
      • feature.type
    • Campi statistici:
      • feature.num_stats.min
      • feature.num_stats.max
      • feature.num_stats.histograms.num_nan
      • feature.num_stats.histograms.buckets.low_value
      • feature.num_stats.histograms.buckets.high_value
    • Condizione di rilevamento:
      • feature.type == FLOAT e
      • feature.bool_domain è specificato e
      • feature.num_stats.min != 0 e feature.num_stats.min != 1 o
        feature.num_stats.max != 0 e feature.num_stats.max != 1 o
        feature.num_stats.histograms.num_nan > 0 o
        feature.num_stats.histograms.buckets.low_value < 0 o
        feature.num_stats.histograms.buckets.high_value > 1 o
        feature.num_stats.histograms.buckets.low_value > 0 e high_value < 1
  • ENUM_TYPE_BYTES_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Campi statistici:
      • feature.string_stats.invalid_utf8_count
    • Condizione di rilevamento:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Campi dello schema:
      • string_domain e feature.domain ; o feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Campi statistici:
      • feature.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • (numero di valori in rank_histogram che non sono nel dominio / numero totale di valori) > (1 - feature.distribution_constraints.min_domain_mass ); o
      • feature.distribution_constraints.min_domain_mass == 1.0 e nell'istogramma sono presenti valori che non sono nel dominio
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Campi dello schema:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Campi statistici:
      • feature.common_stats.max_num_values
      • feature.common_stats.presence_and_valency_stats.max_num_values
    • Condizione di rilevamento:
      • feature.value_count.max è specificato e
      • feature.common_stats.max_num_values ​​> feature.value_count.max ; o
      • feature.value_counts è specificato e
      • feature.common_stats.presence_and_valency_stats.max_num_values ​​> feature.value_counts.value_count.max a un determinato livello di annidamento
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Campi dello schema:
      • feature.presence.min_fraction
    • Campi statistici:
      • feature.common_stats.num_non_missing *
      • num_examples *
    • Condizione di rilevamento:
      • feature.presence.min_fraction è specificato e ( feature.common_stats.num_non_missing / num_examples ) < feature.presence.min_fraction ; o
      • feature.presence.min_fraction == 1.0 e common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Campi dello schema:
      • feature.presence.min_count
    • Campi statistici:
      • feature.common_stats.num_non_missing *
    • Condizione di rilevamento:
      • feature.presence.min_count è specificato e
      • feature.common_stats.num_non_missing == 0 o feature.common_stats.num_non_missing < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Campi dello schema:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Campi statistici:
      • feature.common_stats.min_num_values
      • feature.common_stats.presence_and_valency_stats.min_num_values
    • Condizione di rilevamento:
      • feature.value_count.min è specificato e
      • feature.common_stats.min_num_values ​​< feature.value_count.min ; o
      • feature.value_counts è specificato e
      • feature.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min a un determinato livello di annidamento
  • FEATURE_TYPE_NOT_PRESENT

    • Campi dello schema:
      • feature.in_environment o feature.not_in_environment o schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count o feature.presence.min_fraction
    • Campi statistici:
      • feature.common_stats.num_non_missing *
    • Condizione di rilevamento:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • feature.presence.min_count > 0 o feature.presence.min_fraction > 0 e
      • feature.in_environment == ambiente attuale o feature.not_in_environment != ambiente attuale o schema.default_environment != ambiente attuale e
      • common_stats.num_non_missing * == 0
  • FEATURE_TYPE_NO_VALUES

    • Tipo di anomalia non rilevato in TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Tipo di anomalia non rilevato in TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Campi dello schema:
      • feature.unique_constraints.max
    • Campi statistici:
      • feature.string_stats.unique
    • Condizione di rilevamento:
      • feature.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Campi dello schema:
      • feature.unique_constraints.min
    • Campi statistici:
      • feature.string_stats.unique
    • Condizione di rilevamento:
      • feature.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Campi dello schema:
      • feature.unique_constraints
    • Campi statistici:
      • feature.string_stats.unique
    • Condizione di rilevamento:
      • feature.unique_constraints specificato ma nessun feature.string_stats.unique presente (come nel caso in cui la funzione non è una stringa o una categoria)
  • FLOAT_TYPE_BIG_FLOAT

    • Campi dello schema:
      • feature.float_domain.max
    • Campi statistici:
      • feature.type
      • feature.num_stats.max o feature.string_stats.rank_histogram
    • Condizione di rilevamento:
      • feature.type == FLOAT , BYTES o STRING e
      • se feature.type è FLOAT : feature.num_stats.max > feature.float_domain.max
      • se feature.type è BYTES o STRING : valore massimo in feature.string_stats.rank_histogram (se convertito in float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Tipo di anomalia non rilevato in TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Campi dello schema:
      • feature.float_domain.min
    • Campi statistici:
      • feature.type
      • feature.num_stats.min o feature.string_stats.rank_histogram
    • Condizione di rilevamento:
      • feature.type == FLOAT , BYTES o STRING e
      • se feature.type è FLOAT : feature.num_stats.min < feature.float_domain.min
      • se feature.type è BYTES o STRING : valore minimo in feature.string_stats.rank_histogram (se convertito in float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Campi dello schema:
      • feature.float_domain
    • Campi statistici:
      • feature.type
      • feature.string_stats.rank_histogram
    • Condizione di rilevamento:
      • feature.type == BYTES o STRING e
      • feature.string_stats.rank_histogram ha almeno un valore che non può essere convertito in float
  • FLOAT_TYPE_NON_STRING

    • Tipo di anomalia non rilevato in TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Tipo di anomalia non rilevato in TFDV
  • FLOAT_TYPE_HAS_NAN

    • Campi dello schema:
      • feature.float_domain.disallow_nan
    • Campi statistici:
      • feature.type
      • feature.num_stats.histograms.num_nan
    • Condizione di rilevamento:
      • float_domain.disallow_nan is true e
      • feature.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Campi dello schema:
      • feature.float_domain.disallow_inf
    • Campi statistici:
      • feature.type
      • feature.num_stats.min
      • feature.num_stats.max
    • Condizione di rilevamento:
      • float_domain.disallow_inf is true e
      • feature.num_stats.min == inf/-inf o
      • feature.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Campi dello schema:
      • feature.int_domain.max
    • Campi statistici:
      • feature.type
      • feature.num_stats.max o feature.string_stats.rank_histogram
    • Condizione di rilevamento:
      • feature.type == INT , BYTES o STRING e
      • se feature.type è INT : feature.num_stats.max > feature.int_domain.max
      • se feature.type è BYTES o STRING : valore massimo in feature.string_stats.rank_histogram (se convertito in int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Tipo di anomalia non rilevato in TFDV
  • INT_TYPE_NOT_INT_STRING

    • Campi dello schema:
      • feature.int_domain
    • Campi statistici:
      • feature.type
      • feature.string_stats.rank_histogram
    • Condizione di rilevamento:
      • feature.type == BYTES o STRING e
      • feature.string_stats.rank_histogram ha almeno un valore che non può essere convertito in int
  • INT_TYPE_NOT_STRING

    • Tipo di anomalia non rilevato in TFDV
  • INT_TYPE_SMALL_INT

    • Campi dello schema:
      • feature.int_domain.min
    • Campi statistici:
      • feature.type
      • feature.num_stats.min o feature.string_stats.rank_histogram
    • Condizione di rilevamento:
      • feature.type == INT , BYTES o STRING e
      • se feature.type è INT : feature.num_stats.min < feature.int_domain.min
      • se feature.type è BYTES o STRING : valore minimo in feature.string_stats.rank_histogram (se convertito in int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Tipo di anomalia non rilevato in TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Tipo di anomalia non rilevato in TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Campi dello schema:
      • feature.image_domain.minimum_supported_image_fraction
    • Campi statistici:
      • feature.custom_stats.rank_histogram per custom_stats con nome image_format_histogram . Si noti che le statistiche del dominio semantico devono essere abilitate per generare image_format_histogram e per eseguire questa convalida. Le statistiche del dominio semantico non vengono generate per impostazione predefinita.
    • Condizione di rilevamento:
      • La frazione di valori supportati dai tipi di immagine Tensorflow per tutti i tipi di immagine è inferiore a feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Campi dello schema:
      • feature.in_environment o feature.not_in_environment o schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count o feature.presence.min_fraction
    • Condizione di rilevamento:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • feature.presence.min_count > 0 o feature.presence.min_fraction > 0 e
      • feature.in_environment == ambiente attuale o feature.not_in_environment != ambiente attuale o schema.default_environment != ambiente attuale e
      • nessuna caratteristica con il nome/percorso specificato è stata trovata nel proto delle statistiche
  • SCHEMA_NEW_COLUMN

    • Condizione di rilevamento:
      • c'è una caratteristica nel proto delle statistiche ma nessuna caratteristica con il suo nome/percorso nel proto dello schema
  • SCHEMA_TRAINING_SERVING_SKEW

    • Tipo di anomalia non rilevato in TFDV
  • STRING_TYPE_NOW_FLOAT

    • Tipo di anomalia non rilevato in TFDV
  • STRING_TYPE_NOW_INT

    • Tipo di anomalia non rilevato in TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Campi dello schema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Condizione di rilevamento:
      • il proto delle statistiche di controllo (ovvero, le statistiche di servizio per l'inclinazione o le statistiche precedenti per la deriva) è disponibile ma non contiene la funzione specificata
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Tipo di anomalia non rilevato in TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Campi dello schema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Campi statistici:
      • feature.string_stats.rank_histogram *
    • Condizione di rilevamento:
      • Norma L-infinito del vettore che rappresenta la differenza tra i conteggi normalizzati di feature.string_stats.rank_histogram nelle statistiche di controllo (cioè, statistiche di servizio per skew o statistiche precedenti per drift) e statistiche di trattamento (cioè, statistiche di allenamento per skew o statistiche correnti per la deriva) > feature.skew_comparator.infinity_norm.threshold o feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Campi dello schema:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Campi statistici:
      • feature.num_stats.histograms * di tipo STANDARD
    • Condizione di rilevamento:
      • Divergenza approssimata di Jensen-Shannon calcolata tra nelle statistiche di controllo (cioè, statistiche di servizio per skew o statistiche precedenti per drift) e statistiche di trattamento (cioè, statistiche di allenamento per skew o statistiche correnti per drift) > feature.skew_comparator.jensen_shannon_divergence.threshold o feature.drift_comparator.jensen_shannon_divergence.threshold . La divergenza approssimativa di Jensen-Shannon viene calcolata in base ai conteggi dei campioni normalizzati sia nell'istogramma standard num_stats che nell'istogramma di rango string_stats.
  • NO_DATA_IN_SPAN

    • Tipo di anomalia non rilevato in TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Campi dello schema:
      • sparse_feature.value_feature
    • Campi statistici:
      • feature.custom_stats con "valore_mancante" come nome
    • Condizione di rilevamento:
      • missing_value statistica personalizzata != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Campi dello schema:
      • sparse_feature.index_feature
    • Campi statistici:
      • feature.custom_stats con "missing_index" come nome
    • Condizione di rilevamento:
      • La statistica personalizzata di missing_index contiene qualsiasi valore != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Campi dello schema:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Campi statistici:
      • feature.custom_stats con "min_length_diff" o "max_length_diff" come nome
    • Condizione di rilevamento:
      • La statistica personalizzata min_length_diff o max_length_diff contiene qualsiasi valore != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Campi dello schema:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condizione di rilevamento:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Campi dello schema:
      • feature.domain_info
    • Campi statistici:
      • feature.custom_stats con "domain_info" come nome
    • Condizione di rilevamento:
      • feature.domain_info non è già impostato nello schema e
      • esiste una singola statistica personalizzata domain_info per la funzione
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples > ​​0 e
      • è disponibile il proto delle statistiche precedenti e
      • num_examples / statistiche precedenti num_examples < comparatore min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples > ​​0 e
      • è disponibile il proto delle statistiche precedenti e
      • num_examples / statistiche precedenti num_examples > comparatore max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.min_examples_count
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Campi dello schema:
      • schema.dataset_constraints.max_examples_count
    • Campi statistici:
      • num_examples *
    • Condizione di rilevamento:
      • num_examples > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Campi dello schema:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condizione di rilevamento:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e uno dei seguenti:
        • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e weighted_feature.name == feature.name
        • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED e weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Campi dello schema:
      • weighted_feature.feature
    • Campi statistici:
      • feature.custom_stats con "valore_mancante" come nome
    • Condizione di rilevamento:
      • missing_value statistica personalizzata != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Campi dello schema:
      • weighted_feature.weight_feature
    • Campi statistici:
      • feature.custom_stats con "peso_mancante" come nome
    • Condizione di rilevamento:
      • Statistica personalizzata missing_weight != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Campi dello schema:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Campi statistici:
      • feature.custom_stats con "min_weighted_length_diff" o "max_weight_length_diff" come nome
    • Condizione di rilevamento:
      • min_weight_length_diff o max_weight_length_diff statistica personalizzata != 0
  • VALUE_NESTEDNESS_MISMATCH

    • Campi dello schema:
      • feature.value_count
      • feature.value_counts
    • Campi statistici:
      • feature.common_stats.presence_and_valency_stats
    • Condizione di rilevamento:
      • feature.value_count è specificato ed è presente una presence_and_valency_stats ripetuta per la funzione (che indica un livello di annidamento maggiore di uno)
      • feature.value_counts è specificato e il numero di volte in cui le statistiche di presence_and_valency per la funzione vengono ripetute non corrisponde al numero di volte value_count viene ripetuto all'interno di feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Campi dello schema:

      • feature.type
      • feature.domain_info
    • Campi statistici:

      • type per ciascuna funzione
    • Condizione di rilevamento:

      • feature.domain_info non corrisponde al type di funzionalità (ad esempio, int_domain è specificato, ma il type di funzionalità è float)
      • feature è di tipo BYTES nelle statistiche ma feature.domain_info è di tipo incompatibile
  • FEATURE_MISSING_NAME

    • Campi dello schema:
      • feature.name
    • Condizione di rilevamento:
      • feature.name non è specificato
  • FEATURE_MISSING_TYPE

    • Campi dello schema:
      • feature.type
    • Condizione di rilevamento:
      • feature.type non è specificato
  • INVALID_SCHEMA_SPECIFICATION

    • Campi dello schema:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Condizione di rilevamento:
      • feature.presence.min_fraction < 0,0 o > 1,0
      • feature.value_count.min < 0 o > feature.value_count.max
      • un dominio bool, int, float, struct o semantico è specificato per una caratteristica e feature.distribution_constraints è anche specificato per quella caratteristica
      • feature.distribution_constraints è specificato per una funzionalità, ma per tale funzionalità non sono specificati né un dominio a livello di schema né feature.string_domain
  • INVALID_DOMAIN_SPECIFICATION

    • Campi dello schema:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Condizione di rilevamento:
      • è specificato il tipo unknown feature.domain_info
      • feature.domain è specificato, ma non è specificato alcun dominio corrispondente a livello di schema
      • feature.bool_domain.true_value == feature.bool_domain.false_value
      • valori ripetuti in feature.string_domain
      • feature.string_domain supera la dimensione massima
  • UNEXPECTED_DATA_TYPE

    • Campi dello schema:
      • feature.type
    • Campi statistici:
      • type per ciascuna funzione
    • Condizione di rilevamento:
      • il type di funzionalità non è del tipo specificato in feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Campi statistici:
      • feature.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Condizione di rilevamento:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Campi statistici:
      • feature.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Condizione di rilevamento:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Campi statistici:
      • feature.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condizione di rilevamento:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Campi dello schema:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Campi statistici:
      • feature.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condizione di rilevamento:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Campi dello schema:
      • feature.natural_language_domain.coverage.min_coverage
    • Campi statistici:
      • feature.custom_stats.nl_statistics.feature_coverage
    • Condizione di rilevamento:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Campi dello schema:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Campi statistici:
      • feature.custom_stats.nl_statistics.avg_token_length
    • Condizione di rilevamento:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Tipo di anomalia non rilevato in TFDV
  • EMBEDDING_SHAPE_INVALID

    • Tipo di anomalia non rilevato in TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Campi dello schema:
      • feature.image_domain.max_image_byte_size
    • Campi statistici:
      • feature.bytes_stats.max_num_bytes_int
    • Condizione di rilevamento:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Campi dello schema:
      • feature.shape
    • Campi statistici:
      • feature.common_stats.num_missing
      • feature.common_stats.min_num_values
      • feature.common_stats.max_num_values
      • feature.common_stats.presence_and_valency_stats.num_missing
      • feature.common_stats.presence_and_valency_stats.min_num_values
      • feature.common_stats.presence_and_valency_stats.max_num_values
      • feature.common_stats.weighted_presence_and_valency_stats
    • Condizione di rilevamento:
      • feature.shape è specificato e uno dei seguenti:
        • la funzione potrebbe mancare ( num_missing != 0 ) a livello di nido.
        • la funzione può avere un numero variabile di valori ( min_num_values != max_num_values ​​) a un certo livello di nido
        • la forma specificata non è compatibile con le statistiche di conteggio del valore della funzione. Ad esempio, la forma [16] è compatibile con ( min_num_values == max_num_values == [2, 2, 4] (per una funzione a 3 annidamenti)).
  • STATS_NOT_AVAILBLE

    • L'anomalia si verifica quando le statistiche necessarie per convalidare i vincoli non sono presenti.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Campi dello schema:
      • feature.lifecycle_stage
    • Campi statistici:

      • feature.derived_source
    • Condizione di rilevamento:

      • feature.lifecycle_stage non è uno di DERIVED o DISABLED ed è presente feature.derived_source , a indicare che si tratta di una funzionalità derivata.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Campi dello schema:
      • feature.derived_source
    • Campi statistici:

      • feature.derived_source
    • Condizione di rilevamento:

      • statistics.feature.derived_source è presente per una funzione, ma lo schema.feature.derived_source corrispondente non lo è.

* Se per questo campo è disponibile una statistica ponderata, verrà utilizzata al posto della statistica non ponderata.