TensorFlowデータ検証異常リファレンス

TFDV は、スキーマと統計プロトを比較することによって異常をチェックします。次の表は、TFDV が検出できる異常タイプ、各異常タイプの検出に使用されるスキーマおよび統計フィールド、および各異常タイプが検出される条件をリストしています。

  • BOOL_TYPE_BIG_INT

    • スキーマフィールド:
      • feature.bool_domain
    • 統計フィールド:
      • features.num_stats.max
      • features.type
    • 検出条件:
      • feature.bool_domainが指定されており、
      • features.type == INTおよび
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • TFDV で異常タイプが検出されない
  • BOOL_TYPE_BYTES_NOT_STRING

    • TFDV で異常タイプが検出されない
  • BOOL_TYPE_FLOAT_NOT_INT

    • TFDV で異常タイプが検出されない
  • BOOL_TYPE_FLOAT_NOT_STRING

    • TFDV で異常タイプが検出されない
  • BOOL_TYPE_INT_NOT_STRING

    • TFDV で異常タイプが検出されない
  • BOOL_TYPE_SMALL_INT

    • スキーマフィールド:
      • feature.bool_domain
    • 統計フィールド:
      • features.num_stats.min
      • features.type
    • 検出条件:
      • features.type == INTおよび
      • feature.bool_domainが指定されており、
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • TFDV で異常タイプが検出されない
  • BOOL_TYPE_UNEXPECTED_STRING

    • スキーマフィールド:
      • feature.bool_domain
    • 統計フィールド:
      • features.string_stats.rank_histogram *
    • 検出条件:
      • features.type == STRINGおよび
      • feature.bool_domainが指定されており、
      • rank_histogramの少なくとも 1 つの値 * がfeature.bool_domain.true_valueまたはfeature.bool_domain.false_valueではありません
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • スキーマフィールド:
      • feature.bool_domain
    • 統計フィールド:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • 検出条件:
      • features.type == FLOATおよび
      • feature.bool_domainが指定されており、次のいずれかが指定されています
        • ( features.num_stats.min != 0 またはfeatures.num_stats.min != 1) または
        • ( features.num_stats.max != 0 またはfeatures.num_stats.max != 1) または
        • features.num_stats.histograms.num_nan > 0 または
        • ( features.num_stats.histograms.buckets.low_value != 0 またはfeatures.num_stats.histograms.buckets.high_value != 1) およびfeatures.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • スキーマフィールド:
      • feature.bool_domain
    • 統計フィールド:
      • features.type
    • 検出条件:
      • features.type == INTまたはFLOATの場合、
        • feature.bool_domainが指定されており、
        • feature.bool_domain.true_valueまたはfeature.bool_domain.false_valueが指定されている、または
      • features.type == STRINGの場合、
        • feature.bool_domainが指定されており、
        • feature.bool_domain.true_valueおよびfeature.bool_domain.false_valueが指定されていません
  • ENUM_TYPE_BYTES_NOT_STRING

    • TFDV で異常タイプが検出されない
  • ENUM_TYPE_FLOAT_NOT_STRING

    • TFDV で異常タイプが検出されない
  • ENUM_TYPE_INT_NOT_STRING

    • TFDV で異常タイプが検出されない
  • ENUM_TYPE_INVALID_UTF8

    • 統計フィールド:
      • features.string_stats.invalid_utf8_count
    • 検出条件:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • スキーマフィールド:
      • string_domainfeature.domain ;またはfeature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • 統計フィールド:
      • features.string_stats.rank_histogram *
    • 検出条件:
      • ( rank_histogram内のドメインにない値の数 * / 値の合計数) > (1 - feature.distribution_constraints.min_domain_mass ) または
      • feature.distribution_constraints.min_domain_mass == 1.0 で、ヒストグラムにドメインにない値が含まれています
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • スキーマフィールド:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • 統計フィールド:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • 検出条件:
      • feature.value_count.maxが指定されている場合
        • features.common_stats.max_num_values > feature.value_count.max ;また
      • feature.value_countsが指定されている場合
        • 特定のネストレベルでのfeature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • スキーマフィールド:
      • feature.presence.min_fraction
    • 統計フィールド:
      • features.common_stats.num_non_missing *
      • num_examples *
    • 検出条件:
      • feature.presence.min_fractionが指定されており、 ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fractionまたは
      • feature.presence.min_fraction == 1.0 およびcommon_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • スキーマフィールド:
      • feature.presence.min_count
    • 統計フィールド:
      • features.common_stats.num_non_missing *
    • 検出条件:
      • feature.presence.min_countが指定されており、次のいずれかが指定されています
        • features.common_stats.num_non_missing * == 0 または
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • スキーマフィールド:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • 統計フィールド:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • 検出条件:
      • feature.value_count.minを指定した場合
        • features.common_stats.min_num_values < feature.value_count.min ;また
      • feature.value_countsが指定されている場合
        • 特定のネストレベルでのfeatures.common_stats.presence_and_valency_stats.min_num_values < feature.value_counts.value_count.min
  • FEATURE_TYPE_NOT_PRESENT

    • スキーマフィールド:
      • feature.in_environmentまたはfeature.not_in_environmentまたはschema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_countまたはfeature.presence.min_fraction
    • 統計フィールド:
      • features.common_stats.num_non_missing *
    • 検出条件:
      • feature.lifecycle_stage [ PLANNEDALPHADEBUGDEPRECATED ] に含まれていない、および
      • common_stats.num_non_missing * == 0 および
      • ( feature.presence.min_count > 0 またはfeature.presence.min_fraction > 0) および次のいずれか
        • feature.in_environment == 現在の環境 または
        • feature.not_in_environment != 現在の環境 または
        • schema.default_environment != 現在の環境
  • FEATURE_TYPE_NO_VALUES

    • TFDV で異常タイプが検出されない
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • TFDV で異常タイプが検出されない
  • FEATURE_TYPE_HIGH_UNIQUE

    • スキーマフィールド:
      • feature.unique_constraints.max
    • 統計フィールド:
      • features.string_stats.unique
    • 検出条件:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • スキーマフィールド:
      • feature.unique_constraints.min
    • 統計フィールド:
      • features.string_stats.unique
    • 検出条件:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • スキーマフィールド:
      • feature.unique_constraints
    • 統計フィールド:
      • features.string_stats.unique
    • 検出条件:
      • feature.unique_constraints指定されていますが、 features.string_stats.uniqueが存在しません (特徴が文字列またはカテゴリではない場合と同様)
  • FLOAT_TYPE_BIG_FLOAT

    • スキーマフィールド:
      • feature.float_domain.max
    • 統計フィールド:
      • features.type
      • features.num_stats.maxまたはfeatures.string_stats.rank_histogram
    • 検出条件:
      • features.type == FLOATの場合、
        • features.num_stats.max > feature.float_domain.max ;また
      • features.type == BYTESまたはSTRINGの場合、
        • features.string_stats.rank_histogramの最大値 (float に変換した場合) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • TFDV で異常タイプが検出されない
  • FLOAT_TYPE_SMALL_FLOAT

    • スキーマフィールド:
      • feature.float_domain.min
    • 統計フィールド:
      • features.type
      • features.num_stats.minまたはfeatures.string_stats.rank_histogram
    • 検出条件:
      • features.type == FLOATの場合、
        • features.num_stats.min < feature.float_domain.min ;また
      • features.type == BYTESまたはSTRINGの場合、
        • features.string_stats.rank_histogramの最小値 (float に変換した場合) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • スキーマフィールド:
      • feature.float_domain
    • 統計フィールド:
      • features.type
      • features.string_stats.rank_histogram
    • 検出条件:
      • features.type == BYTESまたはSTRINGおよび
      • features.string_stats.rank_histogramは、float に変換できない値が少なくとも 1 つあります
  • FLOAT_TYPE_NON_STRING

    • TFDV で異常タイプが検出されない
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • TFDV で異常タイプが検出されない
  • FLOAT_TYPE_HAS_NAN

    • スキーマフィールド:
      • feature.float_domain.disallow_nan
    • 統計フィールド:
      • features.type
      • features.num_stats.histograms.num_nan
    • 検出条件:
      • float_domain.disallow_nanが true であり、
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • スキーマフィールド:
      • feature.float_domain.disallow_inf
    • 統計フィールド:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • 検出条件:
      • features.type == FLOAT
      • float_domain.disallow_infが true であり、次のいずれかである
        • features.num_stats.min == inf/-infまたは
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • スキーマフィールド:
      • feature.int_domain.max
    • 統計フィールド:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • 検出条件:
      • features.type == INTの場合、
        • features.num_stats.max > feature.int_domain.max ;また
      • features.type == BYTESまたはSTRINGの場合、
        • features.string_stats.rank_histogramの最大値 (int に変換した場合) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • TFDV で異常タイプが検出されない
  • INT_TYPE_NOT_INT_STRING

    • スキーマフィールド:
      • feature.int_domain
    • 統計フィールド:
      • features.type
      • features.string_stats.rank_histogram
    • 検出条件:
      • features.type == BYTESまたはSTRINGおよび
      • features.string_stats.rank_histogramには、int に変換できない値が少なくとも 1 つあります
  • INT_TYPE_NOT_STRING

    • TFDV で異常タイプが検出されない
  • INT_TYPE_SMALL_INT

    • スキーマフィールド:
      • feature.int_domain.min
    • 統計フィールド:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • 検出条件:
      • features.type == INTの場合、
        • features.num_stats.min < feature.int_domain.min ;また
      • features.type == BYTESまたはSTRINGの場合、
        • features.string_stats.rank_histogramの最小値 (int に変換した場合) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • TFDV で異常タイプが検出されない
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • TFDV で異常タイプが検出されない
  • LOW_SUPPORTED_IMAGE_FRACTION

    • スキーマフィールド:
      • feature.image_domain.minimum_supported_image_fraction
    • 統計フィールド:
      • image_format_histogramという名前のcustom_statsのfeatures.custom_stats.rank_histogram 。 image_format_histogram を生成し、この検証を実行するには、セマンティック ドメイン統計を有効にする必要があることに注意してください。セマンティック ドメイン統計はデフォルトでは生成されません。
    • 検出条件:
      • すべてのイメージ タイプに対するサポートされている Tensorflow イメージ タイプの値の割合は、 feature.image_domain.minimum_supported_image_fraction未満です。
  • SCHEMA_MISSING_COLUMN

    • スキーマフィールド:
      • feature.in_environmentまたはfeature.not_in_environmentまたはschema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_countまたはfeature.presence.min_fraction
    • 検出条件:
      • feature.lifecycle_stage != PLANNEDALPHADEBUG 、またはDEPRECATEDおよび
      • feature.presence.min_count > 0 またはfeature.presence.min_fraction > 0 および
      • feature.in_environment == 現在の環境またはfeature.not_in_environment != 現在の環境またはschema.default_environment != 現在の環境および
      • 指定された名前/パスを持つ機能が統計プロトコルに見つかりません
  • SCHEMA_NEW_COLUMN

    • 検出条件:
      • 統計プロトコルには機能がありますが、スキーマ プロトにはその名前/パスを持つ機能がありません
  • SCHEMA_TRAINING_SERVING_SKEW

    • TFDV で異常タイプが検出されない
  • STRING_TYPE_NOW_FLOAT

    • TFDV で異常タイプが検出されない
  • STRING_TYPE_NOW_INT

    • TFDV で異常タイプが検出されない
  • COMPARATOR_CONTROL_DATA_MISSING

    • スキーマフィールド:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • 検出条件:
      • 制御統計プロト (つまり、スキューのサービング統計またはドリフトの以前の統計) は利用可能ですが、指定された機能は含まれていません
  • COMPARATOR_TREATMENT_DATA_MISSING

    • TFDV で異常タイプが検出されない
  • COMPARATOR_L_INFTY_HIGH

    • スキーマフィールド:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • 統計フィールド:
      • features.string_stats.rank_histogram *
    • 検出条件:
      • 制御統計 (つまり、スキューの場合はサービング統計、ドリフトの場合は以前の統計) のfeatures.string_stats.rank_histogram * からの正規化されたカウントと治療統計 (つまり、トレーニング統計スキューまたはドリフトの現在の統計) > feature.skew_comparator.infinity_norm.thresholdまたはfeature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • スキーマフィールド:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • 統計フィールド:
      • features.string_stats.rank_histogram
    • 検出条件:
      • 制御統計 (つまり、スキューの場合はサービング統計、ドリフトの場合は以前の統計) および処理統計 (つまり、スキューの場合はトレーニング統計、またはドリフトの場合は現在の統計) のfeatures.string_stats.rank_histogramからの値カウントの正規化された絶対カウント差が超過しました。 feature.skew_comparator.normalized_abs_difference.threshold または feature.drift_comparator.normalized_abs_difference.threshold。カウントの差は、両方の条件にわたる合計カウントによって正規化されます。
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • スキーマフィールド:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • 統計フィールド:
      • STANDARDタイプのfeatures.num_stats.histograms
      • features.string_stats.rank_histogram *
    • 検出条件:
      • 制御統計 (つまり、スキューのサービング統計またはドリフトの以前の統計) と治療統計 (つまり、スキューのトレーニング統計またはドリフトの現在の統計) の間で計算されたおおよそのジェンセン・シャノン発散 > feature.skew_comparator.jensen_shannon_divergence.thresholdまたはfeature.drift_comparator.jensen_shannon_divergence.threshold 。おおよその Jensen-Shannon 発散は、 features.num_stats.histograms標準ヒストグラムとfeatures.string_stats.rank_histogram * の両方の正規化されたサンプル数に基づいて計算されます。
  • NO_DATA_IN_SPAN

    • TFDV で異常タイプが検出されない
  • SPARSE_FEATURE_MISSING_VALUE

    • スキーマフィールド:
      • sparse_feature.value_feature
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前が「missing_value」で、
      • missing_valueカスタム統計 != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • スキーマフィールド:
      • sparse_feature.index_feature
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前は「missing_index」で、
      • missing_indexカスタム統計には任意の値が含まれています != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • スキーマフィールド:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前は「min_length_diff」または「max_length_diff」
      • min_length_diffまたはmax_length_diffカスタム統計には任意の値が含まれます != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • スキーマフィールド:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • 検出条件:
      • sparse_feature.lifecycle_stage != PLANNEDALPHADEBUG 、またはDEPRECATED 、および
      • feature.lifecycle_stage != PLANNEDALPHADEBUG 、またはDEPRECATED 、および
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • スキーマフィールド:
      • feature.domain_info
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前は「domain_info」、
      • feature.domain_infoがまだスキーマに設定されておらず、
      • この機能には単一のdomain_infoカスタム統計があります
  • COMPARATOR_LOW_NUM_EXAMPLES

    • スキーマフィールド:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • 統計フィールド:
      • num_examples *
    • 検出条件:
      • num_examples * > 0 および
      • 以前の統計プロトが利用可能であり、
      • num_examples * / 以前の統計num_examples * < コンパレータmin_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • スキーマフィールド:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • 統計フィールド:
      • num_examples *
    • 検出条件:
      • num_examples * > 0 および
      • 以前の統計プロトが利用可能であり、
      • num_examples * / 以前の統計num_examples * > コンパレータmax_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • スキーマフィールド:
      • schema.dataset_constraints.min_examples_count
    • 統計フィールド:
      • num_examples *
    • 検出条件:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • スキーマフィールド:
      • schema.dataset_constraints.max_examples_count
    • 統計フィールド:
      • num_examples *
    • 検出条件:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • スキーマフィールド:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • 検出条件:
      • weighted_feature.lifecycle_stage != PLANNEDALPHADEBUG 、またはDEPRECATEDのいずれか
        • feature.lifecycle_stage != PLANNEDALPHADEBUG 、またはDEPRECATEDの場合、
          • weighted_feature.name == feature.name ;また
        • sparse_feature.lifecycle_stage != PLANNEDALPHADEBUG 、またはDEPRECATEDの場合、
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • スキーマフィールド:
      • weighted_feature.feature
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前が「missing_value」で、
      • missing_valueカスタム統計 != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • スキーマフィールド:
      • weighted_feature.weight_feature
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前は「missing_weight」、
      • missing_weightカスタム統計 != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • スキーマフィールド:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • 統計フィールド:
      • features.custom_stats
    • 検出条件:
      • features.custom_statsの名前は「min_weighted_length_diff」または「max_weight_length_diff」、そして
      • min_weight_length_diffまたはmax_weight_length_diffカスタム統計 != 0
  • VALUE_NESTEDNESS_MISMATCH

    • スキーマフィールド:
      • feature.value_count
      • feature.value_counts
    • 統計フィールド:
      • features.common_stats.presence_and_valency_stats
    • 検出条件:
      • feature.value_countが指定されており、その機能のpresence_and_valency_statsが繰り返されており (これは 1 より大きいネスト レベルを示します)、
      • feature.value_counts指定されており、その機能のpresence_and_valency_stats繰り返される回数が、 feature.value_counts内でvalue_countが繰り返される回数と一致しません。
  • DOMAIN_INVALID_FOR_TYPE

    • スキーマフィールド:
      • feature.type
      • feature.domain_info
    • 統計フィールド:
      • features.type
    • 検出条件:
      • features.type == BYTESの場合、
        • feature.domain_infoは互換性のないタイプです。また
      • features.type != BYTESの場合、
        • feature.domain_info feature.typeと一致しません (例: int_domainが指定されていますが、feature のtypeFLOATです)
  • FEATURE_MISSING_NAME

    • スキーマフィールド:
      • feature.name
    • 検出条件:
      • feature.nameが指定されていません
  • FEATURE_MISSING_TYPE

    • スキーマフィールド:
      • feature.type
    • 検出条件:
      • feature.typeが指定されていません
  • INVALID_SCHEMA_SPECIFICATION

    • スキーマフィールド:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • 検出条件:
      • feature.presence.min_fraction < 0.0 または > 1.0、または
      • feature.value_count.min < 0 または > feature.value_count.max 、または
      • bool、int、float、struct、またはセマンティック ドメインが機能に指定されており、 feature.distribution_constraintsもその機能に指定されている、または
      • feature.distribution_constraintsが機能に指定されていますが、その機能にはスキーマレベルのドメインもfeature.string_domainも指定されていません
  • INVALID_DOMAIN_SPECIFICATION

    • スキーマフィールド:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • 検出条件:
      • 不明なfeature.domain_infoタイプが指定されているか、
      • feature.domainが指定されていますが、スキーマ レベルで指定された一致するドメインがありません。または
      • feature.bool_domainfeature.bool_domain.true_value 、およびfeature.bool_domain.false_valueが指定されている場合、
        • feature.bool_domain.true_value == feature.bool_domain.false_value 、または
      • feature.string_domainが指定されている場合、
        • feature.string_domain.values重複している、または
        • feature.string_domain最大サイズを超えています
  • UNEXPECTED_DATA_TYPE

    • スキーマフィールド:
      • feature.type
    • 統計フィールド:
      • features.type
    • 検出条件:
      • features.typefeature.typeで指定されたタイプではありません
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • スキーマフィールド:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • 統計フィールド:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • 検出条件:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • スキーマフィールド:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • 統計フィールド:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • 検出条件:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • スキーマフィールド:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • 統計フィールド:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • 検出条件:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • スキーマフィールド:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • 統計フィールド:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • 検出条件:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • スキーマフィールド:
      • feature.natural_language_domain.coverage.min_coverage
    • 統計フィールド:
      • features.custom_stats.nl_statistics.feature_coverage
    • 検出条件:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • スキーマフィールド:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • 統計フィールド:
      • features.custom_stats.nl_statistics.avg_token_length
    • 検出条件:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • TFDV で異常タイプが検出されない
  • EMBEDDING_SHAPE_INVALID

    • TFDV で異常タイプが検出されない
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • スキーマフィールド:
      • feature.image_domain.max_image_byte_size
    • 統計フィールド:
      • features.bytes_stats.max_num_bytes_int
    • 検出条件:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • スキーマフィールド:
      • feature.shape
    • 統計フィールド:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • 検出条件:
      • feature.shapeが指定されており、次のいずれかが指定されます
        • 機能がネスト レベルで欠落している ( num_missing != 0) 可能性があります。または
        • フィーチャには、ネスト レベルで可変数の値 ( min_num_values != max_num_values ) が含まれる場合があります。
        • 指定された形状は、フィーチャの値カウント統計と互換性がありません。たとえば、形状[16]は ( min_num_values == max_num_values == [2, 2, 4] (3 ネストされたフィーチャーの場合)) と互換性があります。
  • STATS_NOT_AVAILBLE

    • 制約を検証するために必要な統計が存在しない場合、異常が発生します。
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • スキーマフィールド:
      • feature.lifecycle_stage
    • 統計フィールド:
      • features.validation_derived_source
    • 検出条件:
      • feature.lifecycle_stage DERIVEDまたはDISABLEDのいずれでもなく、 features.validation_derived_sourceが存在し、これが派生機能であることを示しています。
  • DERIVED_FEATURE_INVALID_SOURCE

    • スキーマフィールド:
      • feature.validation_derived_source
    • 統計フィールド:
      • features.validation_derived_source
    • 検出条件:
      • features.validation_derived_sourceは機能に対して存在しますが、対応するfeature.validation_derived_sourceは存在しません。

* このフィールドで加重統計が利用可能な場合は、非加重統計の代わりにそれが使用されます。