Referencia de anomalías de validación de datos de TensorFlow

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

TFDV comprueba si hay anomalías comparando un esquema y prototipos de estadísticas. El siguiente cuadro enumera los tipos de anomalías que TFDV puede detectar, los campos de esquema y estadísticas que se utilizan para detectar cada tipo de anomalía y las condiciones bajo las cuales se detecta cada tipo de anomalía.

  • BOOL_TYPE_BIG_INT

    • Campos de esquema:
      • feature.bool_domain
      • feature.type
    • Campos de estadísticas:
      • feature.num_stats.max
    • Condición de detección:
      • feature.type == INT y
      • se especifica feature.bool_domain y
      • feature.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • Tipo de anomalía no detectado en TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • Tipo de anomalía no detectado en TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • BOOL_TYPE_SMALL_INT

    • Campos de esquema:
      • feature.bool_domain
      • feature.type
    • Campos de estadísticas:
      • feature.num_stats.min
    • Condición de detección:
      • feature.type == INT y
      • se especifica feature.bool_domain y
      • feature.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • Tipo de anomalía no detectado en TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • Campos de esquema:
      • feature.bool_domain
      • feature.type
    • Campos de estadísticas:
      • feature.string_stats.rank_histogram *
    • Condición de detección:
      • al menos un valor en rank_histogram no es feature.bool_domain.true_value o feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • Campos de esquema:
      • feature.bool_domain
      • feature.type
    • Campos de estadísticas:
      • feature.num_stats.min
      • feature.num_stats.max
      • feature.num_stats.histograms.num_nan
      • feature.num_stats.histograms.buckets.low_value
      • feature.num_stats.histograms.buckets.high_value
    • Condición de detección:
      • feature.type == FLOAT y
      • se especifica feature.bool_domain y
      • feature.num_stats.min != 0 y feature.num_stats.min != 1 o
        feature.num_stats.max != 0 y feature.num_stats.max != 1 o
        feature.num_stats.histograms.num_nan > 0 o
        feature.num_stats.histograms.buckets.low_value < 0 o
        feature.num_stats.histograms.buckets.high_value > 1 o
        feature.num_stats.histograms.buckets.low_value > 0 y high_value < 1
  • ENUM_TYPE_BYTES_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • ENUM_TYPE_INVALID_UTF8

    • Campos de estadísticas:
      • feature.string_stats.invalid_utf8_count
    • Condición de detección:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • Campos de esquema:
      • string_domain y feature.domain ; o feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • Campos de estadísticas:
      • feature.string_stats.rank_histogram *
    • Condición de detección:
      • (cantidad de valores en rank_histogram que no están en el dominio/cantidad total de valores) > (1 - feature.distribution_constraints.min_domain_mass ); o
      • feature.distribution_constraints.min_domain_mass == 1.0 y hay valores en el histograma que no están en el dominio
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • Campos de esquema:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • Campos de estadísticas:
      • feature.common_stats.max_num_values
      • feature.common_stats.presence_and_valency_stats.max_num_values
    • Condición de detección:
      • se especifica feature.value_count.max y
      • feature.common_stats.max_num_values ​​> feature.value_count.max ; o
      • se especifica feature.value_counts y
      • feature.common_stats.presence_and_valency_stats.max_num_values ​​> feature.value_counts.value_count.max en un nivel de anidamiento dado
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • Campos de esquema:
      • feature.presence.min_fraction
    • Campos de estadísticas:
      • feature.common_stats.num_non_missing *
      • num_examples *
    • Condición de detección:
      • se especifica feature.presence.min_fraction y ( feature.common_stats.num_non_missing / num_examples ) < feature.presence.min_fraction ; o
      • feature.presence.min_fraction == 1.0 y common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • Campos de esquema:
      • feature.presence.min_count
    • Campos de estadísticas:
      • feature.common_stats.num_non_missing *
    • Condición de detección:
      • se especifica feature.presence.min_count y
      • feature.common_stats.num_non_missing == 0 o feature.common_stats.num_non_missing < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • Campos de esquema:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • Campos de estadísticas:
      • feature.common_stats.min_num_values
      • feature.common_stats.presence_and_valency_stats.min_num_values
    • Condición de detección:
      • se especifica feature.value_count.min y
      • feature.common_stats.min_num_values ​​< feature.value_count.min ; o
      • se especifica feature.value_counts y
      • feature.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min en un nivel de anidamiento determinado
  • FEATURE_TYPE_NOT_PRESENT

    • Campos de esquema:
      • feature.in_environment o feature.not_in_environment o schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count o feature.presence.min_fraction
    • Campos de estadísticas:
      • feature.common_stats.num_non_missing *
    • Condición de detección:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED y
      • feature.presence.min_count > 0 o feature.presence.min_fraction > 0 y
      • feature.in_environment == entorno actual o feature.not_in_environment != entorno actual o schema.default_environment != entorno actual y
      • common_stats.num_non_missing * == 0
  • FEATURE_TYPE_NO_VALUES

    • Tipo de anomalía no detectado en TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • Tipo de anomalía no detectado en TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • Campos de esquema:
      • feature.unique_constraints.max
    • Campos de estadísticas:
      • feature.string_stats.unique
    • Condición de detección:
      • feature.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • Campos de esquema:
      • feature.unique_constraints.min
    • Campos de estadísticas:
      • feature.string_stats.unique
    • Condición de detección:
      • feature.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • Campos de esquema:
      • feature.unique_constraints
    • Campos de estadísticas:
      • feature.string_stats.unique
    • Condición de detección:
      • feature.unique_constraints especificado pero no feature.string_stats.unique presente (como es el caso donde la función no es una cadena o categórica)
  • FLOAT_TYPE_BIG_FLOAT

    • Campos de esquema:
      • feature.float_domain.max
    • Campos de estadísticas:
      • feature.type
      • feature.num_stats.max o feature.string_stats.rank_histogram
    • Condición de detección:
      • feature.type == FLOAT , BYTES o STRING y
      • si feature.type es FLOAT : feature.num_stats.max > feature.float_domain.max
      • si feature.type es BYTES o STRING : valor máximo en feature.string_stats.rank_histogram (cuando se convierte a float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • Tipo de anomalía no detectado en TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • Campos de esquema:
      • feature.float_domain.min
    • Campos de estadísticas:
      • feature.type
      • feature.num_stats.min o feature.string_stats.rank_histogram
    • Condición de detección:
      • feature.type == FLOAT , BYTES o STRING y
      • si feature.type es FLOAT : feature.num_stats.min < feature.float_domain.min
      • si feature.type es BYTES o STRING : valor mínimo en feature.string_stats.rank_histogram (cuando se convierte a float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • Campos de esquema:
      • feature.float_domain
    • Campos de estadísticas:
      • feature.type
      • feature.string_stats.rank_histogram
    • Condición de detección:
      • característica.tipo == feature.type STRING BYTES
      • feature.string_stats.rank_histogram tiene al menos un valor que no se puede convertir en un flotante
  • FLOAT_TYPE_NON_STRING

    • Tipo de anomalía no detectado en TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • Tipo de anomalía no detectado en TFDV
  • FLOAT_TYPE_HAS_NAN

    • Campos de esquema:
      • feature.float_domain.disallow_nan
    • Campos de estadísticas:
      • feature.type
      • feature.num_stats.histograms.num_nan
    • Condición de detección:
      • float_domain.disallow_nan is true y
      • feature.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • Campos de esquema:
      • feature.float_domain.disallow_inf
    • Campos de estadísticas:
      • feature.type
      • feature.num_stats.min
      • feature.num_stats.max
    • Condición de detección:
      • float_domain.disallow_inf is true y
      • feature.num_stats.min == inf/-inf o
      • feature.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • Campos de esquema:
      • feature.int_domain.max
    • Campos de estadísticas:
      • feature.type
      • feature.num_stats.max o feature.string_stats.rank_histogram
    • Condición de detección:
      • feature.type == INT , BYTES o STRING y
      • si feature.type es INT : feature.num_stats.max > feature.int_domain.max
      • si feature.type es BYTES o STRING : valor máximo en feature.string_stats.rank_histogram (cuando se convierte a int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • Tipo de anomalía no detectado en TFDV
  • INT_TYPE_NOT_INT_STRING

    • Campos de esquema:
      • feature.int_domain
    • Campos de estadísticas:
      • feature.type
      • feature.string_stats.rank_histogram
    • Condición de detección:
      • característica.tipo == feature.type STRING BYTES
      • feature.string_stats.rank_histogram tiene al menos un valor que no se puede convertir a un int
  • INT_TYPE_NOT_STRING

    • Tipo de anomalía no detectado en TFDV
  • INT_TYPE_SMALL_INT

    • Campos de esquema:
      • feature.int_domain.min
    • Campos de estadísticas:
      • feature.type
      • feature.num_stats.min o feature.string_stats.rank_histogram
    • Condición de detección:
      • feature.type == INT , BYTES o STRING y
      • si feature.type es INT : feature.num_stats.min < feature.int_domain.min
      • si feature.type es BYTES o STRING : valor mínimo en feature.string_stats.rank_histogram (cuando se convierte a int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • Tipo de anomalía no detectado en TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • Tipo de anomalía no detectado en TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • Campos de esquema:
      • feature.image_domain.minimum_supported_image_fraction
    • Campos de estadísticas:
      • feature.custom_stats.rank_histogram para custom_stats con el nombre image_format_histogram . Tenga en cuenta que las estadísticas de dominio semántico deben estar habilitadas para que se genere image_format_histogram y para que se realice esta validación. Las estadísticas de dominio semántico no se generan de forma predeterminada.
    • Condición de detección:
      • La fracción de valores que son tipos de imágenes de Tensorflow compatibles con todos los tipos de imágenes es menor que feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • Campos de esquema:
      • feature.in_environment o feature.not_in_environment o schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count o feature.presence.min_fraction
    • Condición de detección:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED y
      • feature.presence.min_count > 0 o feature.presence.min_fraction > 0 y
      • feature.in_environment == entorno actual o feature.not_in_environment != entorno actual o schema.default_environment != entorno actual y
      • no se encuentra ninguna función con el nombre o la ruta especificados en el protocolo de estadísticas
  • SCHEMA_NEW_COLUMN

    • Condición de detección:
      • hay una característica en el prototipo de estadísticas pero ninguna característica con su nombre/ruta en el prototipo de esquema
  • SCHEMA_TRAINING_SERVING_SKEW

    • Tipo de anomalía no detectado en TFDV
  • STRING_TYPE_NOW_FLOAT

    • Tipo de anomalía no detectado en TFDV
  • STRING_TYPE_NOW_INT

    • Tipo de anomalía no detectado en TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • Campos de esquema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Condición de detección:
      • el prototipo de estadísticas de control (es decir, estadísticas de servicio para sesgo o estadísticas anteriores para desviación) está disponible pero no contiene la característica especificada
  • COMPARATOR_TREATMENT_DATA_MISSING

    • Tipo de anomalía no detectado en TFDV
  • COMPARATOR_L_INFTY_HIGH

    • Campos de esquema:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • Campos de estadísticas:
      • feature.string_stats.rank_histogram *
    • Condición de detección:
      • Norma L-infinito del vector que representa la diferencia entre los recuentos normalizados de feature.string_stats.rank_histogram en las estadísticas de control (es decir, estadísticas de servicio para sesgo o estadísticas anteriores para desviación) y las estadísticas de tratamiento (es decir, estadísticas de entrenamiento para sesgo o estadísticas actuales de deriva) > feature.skew_comparator.infinity_norm.threshold o feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • Campos de esquema:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • Campos de estadísticas:
      • feature.num_stats.histograms * de tipo STANDARD
    • Condición de detección:
      • Divergencia de Jensen-Shannon aproximada calculada entre las estadísticas de control (es decir, estadísticas de servicio para sesgo o estadísticas anteriores para desvío) y las estadísticas de tratamiento (es decir, estadísticas de entrenamiento para sesgo o estadísticas actuales para desvío) > feature.skew_comparator.jensen_shannon_divergence.threshold o feature.drift_comparator.jensen_shannon_divergence.threshold . La divergencia Jensen-Shannon aproximada se calcula en función de los recuentos de muestras normalizados tanto en el histograma estándar de num_stats como en el histograma de rango de string_stats.
  • NO_DATA_IN_SPAN

    • Tipo de anomalía no detectado en TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • Campos de esquema:
      • sparse_feature.value_feature
    • Campos de estadísticas:
      • feature.custom_stats con "missing_value" como nombre
    • Condición de detección:
      • missing_value personalizada del valor perdido! = 0
  • SPARSE_FEATURE_MISSING_INDEX

    • Campos de esquema:
      • sparse_feature.index_feature
    • Campos de estadísticas:
      • feature.custom_stats con "missing_index" como nombre
    • Condición de detección:
      • ¡La estadística personalizada missing_index contiene cualquier valor! = 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • Campos de esquema:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • Campos de estadísticas:
      • feature.custom_stats con "min_length_diff" o "max_length_diff" como nombre
    • Condición de detección:
      • min_length_diff o max_length_diff la estadística personalizada contiene cualquier valor! = 0
  • SPARSE_FEATURE_NAME_COLLISION

    • Campos de esquema:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condición de detección:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED y
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED y
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • Campos de esquema:
      • feature.domain_info
    • Campos de estadísticas:
      • feature.custom_stats con "domain_info" como nombre
    • Condición de detección:
      • feature.domain_info aún no está configurado en el esquema y
      • hay una sola estadística personalizada de domain_info para la característica
  • COMPARATOR_LOW_NUM_EXAMPLES

    • Campos de esquema:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • Campos de estadísticas:
      • num_examples *
    • Condición de detección:
      • num_examples > 0 y
      • el prototipo de estadísticas anterior está disponible y
      • num_examples / estadísticas anteriores num_examples < comparador min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • Campos de esquema:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • Campos de estadísticas:
      • num_examples *
    • Condición de detección:
      • num_examples > 0 y
      • el prototipo de estadísticas anterior está disponible y
      • num_examples / estadísticas anteriores num_examples > comparador max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • Campos de esquema:
      • schema.dataset_constraints.min_examples_count
    • Campos de estadísticas:
      • num_examples *
    • Condición de detección:
      • num_examples < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • Campos de esquema:
      • schema.dataset_constraints.max_examples_count
    • Campos de estadísticas:
      • num_examples *
    • Condición de detección:
      • num_examples > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • Campos de esquema:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • Condición de detección:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED y ya sea:
        • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED weighted_feature.name feature.name
        • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG o DEPRECATED weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • Campos de esquema:
      • weighted_feature.feature
    • Campos de estadísticas:
      • feature.custom_stats con "missing_value" como nombre
    • Condición de detección:
      • missing_value personalizada del valor perdido! = 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • Campos de esquema:
      • weighted_feature.weight_feature
    • Campos de estadísticas:
      • feature.custom_stats con "missing_weight" como nombre
    • Condición de detección:
      • ¡Estadística personalizada missing_weight ! = 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • Campos de esquema:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • Campos de estadísticas:
      • feature.custom_stats con "min_weighted_length_diff" o "max_weight_length_diff" como nombre
    • Condición de detección:
      • min_weight_length_diff o max_weight_length_diff estadística personalizada! = 0
  • VALUE_NESTEDNESS_MISMATCH

    • Campos de esquema:
      • feature.value_count
      • feature.value_counts
    • Campos de estadísticas:
      • feature.common_stats.presence_and_valency_stats
    • Condición de detección:
      • Se especifica feature.value_count , y hay una repetición presence_and_valency_stats para la característica (que indica un nivel de anidamiento que es mayor que uno)
      • se especifica feature.value_counts , y la cantidad de veces que se repiten las estadísticas de presence_and_valency para la característica no coincide con la cantidad de veces que value_count se repite dentro de feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • Campos de esquema:

      • feature.type
      • feature.domain_info
    • Campos de estadísticas:

      • type para cada característica
    • Condición de detección:

      • feature.domain_info no coincide con el type de función (por ejemplo, se especifica int_domain , pero el type de función es flotante)
      • la función es de tipo BYTES en las estadísticas, pero la feature.domain_info es de un tipo incompatible
  • FEATURE_MISSING_NAME

    • Campos de esquema:
      • feature.name
    • Condición de detección:
      • feature.name no está especificado
  • FEATURE_MISSING_TYPE

    • Campos de esquema:
      • feature.type
    • Condición de detección:
      • feature.type no está especificado
  • INVALID_SCHEMA_SPECIFICATION

    • Campos de esquema:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • Condición de detección:
      • feature.presence.min_fraction < 0.0 o > 1.0
      • feature.value_count.min < 0 o > feature.value_count.max
      • se especifica un dominio bool, int, float, struct o semántico para una característica y feature.distribution_constraints también se especifica para esa característica
      • feature.distribution_constraints se especifica para una función, pero no se especifica un dominio de nivel de esquema ni feature.string_domain para esa función
  • INVALID_DOMAIN_SPECIFICATION

    • Campos de esquema:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • Condición de detección:
      • Se especifica un tipo desconocido feature.domain_info
      • Se especifica feature.domain , pero no hay ningún dominio coincidente especificado en el nivel de esquema
      • feature.bool_domain.true_value == feature.bool_domain.false_value
      • valores repetidos en feature.string_domain
      • feature.string_domain supera el tamaño máximo
  • UNEXPECTED_DATA_TYPE

    • Campos de esquema:
      • feature.type
    • Campos de estadísticas:
      • type para cada característica
    • Condición de detección:
      • el type de característica no es del tipo especificado en feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • Campos de esquema:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • Campos de estadísticas:
      • feature.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • Condición de detección:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • Campos de esquema:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • Campos de estadísticas:
      • feature.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • Condición de detección:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • Campos de esquema:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • Campos de estadísticas:
      • feature.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condición de detección:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • Campos de esquema:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • Campos de estadísticas:
      • feature.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • Condición de detección:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • Campos de esquema:
      • feature.natural_language_domain.coverage.min_coverage
    • Campos de estadísticas:
      • feature.custom_stats.nl_statistics.feature_coverage
    • Condición de detección:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • Campos de esquema:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • Campos de estadísticas:
      • feature.custom_stats.nl_statistics.avg_token_length
    • Condición de detección:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • Tipo de anomalía no detectado en TFDV
  • EMBEDDING_SHAPE_INVALID

    • Tipo de anomalía no detectado en TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • Campos de esquema:
      • feature.image_domain.max_image_byte_size
    • Campos de estadísticas:
      • feature.bytes_stats.max_num_bytes_int
    • Condición de detección:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • Campos de esquema:
      • feature.shape
    • Campos de estadísticas:
      • feature.common_stats.num_missing
      • feature.common_stats.min_num_values
      • feature.common_stats.max_num_values
      • feature.common_stats.presence_and_valency_stats.num_missing
      • feature.common_stats.presence_and_valency_stats.min_num_values
      • feature.common_stats.presence_and_valency_stats.max_num_values
      • feature.common_stats.weighted_presence_and_valency_stats
    • Condición de detección:
      • se especifica feature.shape y uno de los siguientes:
        • la función puede faltar ( num_missing != 0 ) en algún nivel de nido.
        • la función puede tener un número variable de valores ( min_num_values != max_num_values ​​) en algún nivel de nido
        • la forma especificada no es compatible con las estadísticas de recuento de valores de la función. Por ejemplo, la forma [16] es compatible con ( min_num_values == max_num_values == [2, 2, 4] (para una característica de 3 anidados)).
  • STATS_NOT_AVAILBLE

    • La anomalía ocurre cuando las estadísticas necesarias para validar las restricciones no están presentes.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • Campos de esquema:
      • feature.lifecycle_stage
    • Campos de estadísticas:

      • feature.derived_source
    • Condición de detección:

      • feature.lifecycle_stage no es DERIVED o DISABLED, y feature.derived_source está presente, lo que indica que se trata de una función derivada.
  • DERIVED_FEATURE_INVALID_SOURCE

    • Campos de esquema:
      • feature.derived_source
    • Campos de estadísticas:

      • feature.derived_source
    • Condición de detección:

      • statistics.feature.derived_source está presente para una característica, pero el schema.feature.derived_source correspondiente no lo está.

* Si hay una estadística ponderada disponible para este campo, se utilizará en lugar de la estadística no ponderada.