مرجع شذوذ التحقق من صحة بيانات TensorFlow

يتحقق TFDV من الحالات الشاذة من خلال مقارنة مخطط (بروتوكولات) وإحصائيات. يسرد المخطط التالي أنواع الشذوذ التي يمكن أن يكتشفها TFDV ، وحقول المخطط والإحصاءات المستخدمة لاكتشاف كل نوع من أنواع الشذوذ ، والظروف (الحالات) التي يتم من خلالها اكتشاف كل نوع شذوذ.

  • BOOL_TYPE_BIG_INT

    • حقول المخطط:
      • feature.bool_domain
    • مجالات الإحصاء:
      • features.num_stats.max
      • features.type
    • شرط الكشف:
      • يتم تحديد feature.bool_domain و
      • features.type == INT و
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • BOOL_TYPE_SMALL_INT

    • حقول المخطط:
      • feature.bool_domain
    • مجالات الإحصاء:
      • features.num_stats.min
      • features.type
    • شرط الكشف:
      • features.type == INT و
      • يتم تحديد feature.bool_domain و
      • features.num_stats.min <0
  • BOOL_TYPE_STRING_NOT_INT

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • حقول المخطط:
      • feature.bool_domain
    • مجالات الإحصاء:
      • features.string_stats.rank_histogram *
    • شرط الكشف:
      • features.type == STRING و
      • يتم تحديد feature.bool_domain و
      • قيمة واحدة على الأقل في rank_histogram * ليست feature.bool_domain.true_value أو feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • حقول المخطط:
      • feature.bool_domain
    • مجالات الإحصاء:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • شرط الكشف:
      • features.type == FLOAT و
      • يتم تحديد feature.bool_domain وإما
        • ( features.num_stats.min ! = 0 أو features.num_stats.min ! = 1) أو
        • ( features.num_stats.max ! = 0 أو features.num_stats.max ! = 1) أو
        • features.num_stats.histograms.num_nan > 0 أو
        • ( features.num_stats.histograms.buckets.low_value ! = 0 أو features.num_stats.histograms.buckets.high_value ! = 1) و features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • حقول المخطط:
      • feature.bool_domain
    • مجالات الإحصاء:
      • features.type
    • شرط الكشف:
      • إذا كانت features.type == INT أو FLOAT ،
        • يتم تحديد feature.bool_domain و
        • يتم تحديد feature.bool_domain.true_value أو feature.bool_domain.false_value ، أو
      • إذا كانت features.type == STRING ،
        • يتم تحديد feature.bool_domain و
        • لم يتم تحديد feature.bool_domain.true_value و feature.bool_domain.false_value
  • ENUM_TYPE_BYTES_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • ENUM_TYPE_INVALID_UTF8

    • مجالات الإحصاء:
      • features.string_stats.invalid_utf8_count
    • شرط الكشف:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • حقول المخطط:
      • string_domain و feature.domain ؛ أو feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • مجالات الإحصاء:
      • features.string_stats.rank_histogram *
    • شرط الكشف:
      • إما (عدد القيم في rank_histogram * التي ليست في المجال / إجمالي عدد القيم)> (1 - feature.distribution_constraints.min_domain_mass ) أو
      • feature.distribution_constraints.min_domain_mass == 1.0 وهناك قيم في المدرج التكراري ليست في المجال
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • حقول المخطط:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • مجالات الإحصاء:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • شرط الكشف:
      • إذا تم تحديد feature.value_count.max
        • features.common_stats.max_num_values > feature.value_count.max ؛ أو
      • إذا تم تحديد feature.value_counts
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​عند مستوى تداخل معين
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • حقول المخطط:
      • feature.presence.min_fraction
    • مجالات الإحصاء:
      • features.common_stats.num_non_missing *
      • num_examples *
    • شرط الكشف:
      • تم تحديد feature.presence.min_fraction و ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction أو
      • feature.presence.min_fraction == 1.0 و common_stats.num_missing ! = 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • حقول المخطط:
      • feature.presence.min_count
    • مجالات الإحصاء:
      • features.common_stats.num_non_missing *
    • شرط الكشف:
      • يتم تحديد feature.presence.min_count وإما
        • features.common_stats.num_non_missing * == 0 أو
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • حقول المخطط:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • مجالات الإحصاء:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • شرط الكشف:
      • إذا تم تحديد feature.value_count.min
        • features.common_stats.min_num_values ​​< feature.value_count.min ؛ أو
      • إذا تم تحديد feature.value_counts
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min عند مستوى تداخل معين
  • FEATURE_TYPE_NOT_PRESENT

    • حقول المخطط:
      • feature.in_environment أو feature.not_in_environment أو schema.default_environment . البيئة الافتراضية
      • feature.lifecycle_stage
      • feature.presence.min_count أو feature.presence.min_fraction
    • مجالات الإحصاء:
      • features.common_stats.num_non_missing *
    • شرط الكشف:
      • feature.lifecycle_stage ليست في [ PLANNED ، ALPHA ، DEBUG ، DEPRECATED ] و
      • common_stats.num_non_missing * == 0 و
      • ( feature.presence.min_count > 0 أو feature.presence.min_fraction > 0) وإما
        • feature.in_environment == البيئة الحالية أو
        • feature.not_in_environment ! = البيئة الحالية أو
        • schema.default_environment ! = البيئة الحالية
  • FEATURE_TYPE_NO_VALUES

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • حقول المخطط:
      • feature.unique_constraints.max
    • مجالات الإحصاء:
      • features.string_stats.unique
    • شرط الكشف:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • حقول المخطط:
      • feature.unique_constraints.min
    • مجالات الإحصاء:
      • features.string_stats.unique
    • شرط الكشف:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • حقول المخطط:
      • feature.unique_constraints
    • مجالات الإحصاء:
      • features.string_stats.unique
    • شرط الكشف:
      • feature.unique_constraints محددة ولكن لا توجد features.string_stats.unique موجودة (كما هو الحال عندما تكون الميزة ليست سلسلة أو قاطعة)
  • FLOAT_TYPE_BIG_FLOAT

    • حقول المخطط:
      • feature.float_domain.max
    • مجالات الإحصاء:
      • features.type
      • features.num_stats.max أو features.string_stats.rank_histogram
    • شرط الكشف:
      • إذا كانت features.type == FLOAT ،
        • features.num_stats.max > feature.float_domain.max ؛ أو
      • إذا كانت features.type == BYTES أو STRING ،
        • القيمة القصوى في features.string_stats.rank_histogram (عند التحويل إلى تعويم)> feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • حقول المخطط:
      • feature.float_domain.min
    • مجالات الإحصاء:
      • features.type
      • features.num_stats.min أو features.string_stats.rank_histogram
    • شرط الكشف:
      • إذا كانت features.type == FLOAT ،
        • features.num_stats.min < feature.float_domain.min ؛ أو
      • إذا كانت features.type == BYTES أو STRING ،
        • الحد الأدنى للقيمة في features.string_stats.rank_histogram (عند التحويل إلى تعويم) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • حقول المخطط:
      • feature.float_domain
    • مجالات الإحصاء:
      • features.type
      • features.string_stats.rank_histogram
    • شرط الكشف:
      • features.type == BYTES أو STRING و
      • features.string_stats.rank_histogram له قيمة واحدة على الأقل لا يمكن تحويلها إلى عدد عشري
  • FLOAT_TYPE_NON_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • FLOAT_TYPE_HAS_NAN

    • حقول المخطط:
      • feature.float_domain.disallow_nan
    • مجالات الإحصاء:
      • features.type
      • features.num_stats.histograms.num_nan
    • شرط الكشف:
      • قيمة float_domain.disallow_nan صحيحة و
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • حقول المخطط:
      • feature.float_domain.disallow_inf
    • مجالات الإحصاء:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • شرط الكشف:
      • features.type == FLOAT
      • قيمة float_domain.disallow_inf صحيحة وأيًا منهما
        • features.num_stats.min == inf/-inf أو
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • حقول المخطط:
      • feature.int_domain.max
    • مجالات الإحصاء:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • شرط الكشف:
      • إذا كانت features.type == INT ،
        • features.num_stats.max > feature.int_domain.max ؛ أو
      • إذا كانت features.type == BYTES أو STRING ،
        • القيمة القصوى في features.string_stats.rank_histogram (عند التحويل إلى int)> feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • INT_TYPE_NOT_INT_STRING

    • حقول المخطط:
      • feature.int_domain
    • مجالات الإحصاء:
      • features.type
      • features.string_stats.rank_histogram
    • شرط الكشف:
      • features.type == BYTES أو STRING و
      • features.string_stats.rank_histogram له قيمة واحدة على الأقل لا يمكن تحويلها إلى عدد صحيح
  • INT_TYPE_NOT_STRING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • INT_TYPE_SMALL_INT

    • حقول المخطط:
      • feature.int_domain.min
    • مجالات الإحصاء:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • شرط الكشف:
      • إذا كانت features.type == INT ،
        • features.num_stats.min < feature.int_domain.min ؛ أو
      • إذا كانت features.type == BYTES أو STRING ،
        • الحد الأدنى للقيمة في features.string_stats.rank_histogram (عند التحويل إلى int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • حقول المخطط:
      • feature.image_domain.minimum_supported_image_fraction
    • مجالات الإحصاء:
      • features.custom_stats.rank_histogram for the custom_stats مع الاسم image_format_histogram . لاحظ أنه يجب تمكين إحصائيات المجال الدلالي من أجل إنشاء image_format_histogram ولكي يتم إجراء هذا التحقق من الصحة. لا يتم إنشاء احصائيات المجال الدلالي بشكل افتراضي.
    • شرط الكشف:
      • جزء القيم المدعومة من أنواع صور Tensorflow لجميع أنواع الصور أقل من feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • حقول المخطط:
      • feature.in_environment أو feature.not_in_environment أو schema.default_environment . البيئة الافتراضية
      • feature.lifecycle_stage
      • feature.presence.min_count أو feature.presence.min_fraction
    • شرط الكشف:
      • feature.lifecycle_stage ! = PLANNED أو ALPHA أو DEBUG أو DEPRECATED و
      • feature.presence.min_count > 0 أو feature.presence.min_fraction > 0 و
      • feature.in_environment == البيئة الحالية أو feature.not_in_environment ! = البيئة الحالية أو schema.default_environment .
      • لم يتم العثور على ميزة بالاسم / المسار المحدد في بروتو الإحصائيات
  • SCHEMA_NEW_COLUMN

    • شرط الكشف:
      • توجد ميزة في بروتو الإحصائيات ولكن لا توجد ميزة باسمها / مسارها في بروتو المخطط
  • SCHEMA_TRAINING_SERVING_SKEW

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • STRING_TYPE_NOW_FLOAT

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • STRING_TYPE_NOW_INT

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • حقول المخطط:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • شرط الكشف:
      • يتوفر بروتو إحصائيات التحكم (على سبيل المثال ، إحصائيات الخدمة للانحراف أو الإحصائيات السابقة للانجراف) ولكنها لا تحتوي على الميزة المحددة
  • COMPARATOR_TREATMENT_DATA_MISSING

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • COMPARATOR_L_INFTY_HIGH

    • حقول المخطط:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • مجالات الإحصاء:
      • features.string_stats.rank_histogram *
    • شرط الكشف:
      • معيار L- اللانهاية للمتجه الذي يمثل الفرق بين التعداد الطبيعي من السمات features.string_stats.rank_histogram * في إحصائيات التحكم (أي ، إحصائيات الخدمة للانحراف أو الإحصائيات السابقة للانجراف) وإحصاءات المعالجة (أي إحصاءات التدريب لـ الانحراف أو الإحصائيات الحالية للانجراف)> feature.skew_comparator.infinity_norm.threshold أو feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • حقول المخطط:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • مجالات الإحصاء:
      • features.string_stats.rank_histogram
    • شرط الكشف:
      • تم تجاوز فرق العد المطلق المعدل لأعداد القيمة من features.string_stats.rank_histogram في إحصائيات التحكم (على سبيل المثال ، إحصائيات الخدمة للانحراف أو الإحصائيات السابقة للانجراف) وإحصاءات المعالجة (أي إحصاءات التدريب للانحراف أو الإحصائيات الحالية للانجراف). feature.skew_comparator.normalized_abs_difference.threshold أو feature.drift_comparator.normalized_abs_difference.threshold. يتم تسوية فروق العد من خلال العدد الإجمالي عبر كلا الشرطين.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • حقول المخطط:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • مجالات الإحصاء:
      • features.num_stats.histograms من النوع STANDARD
      • features.string_stats.rank_histogram *
    • شرط الكشف:
      • تباعد جنسن-شانون التقريبي المحسوب بين إحصائيات التحكم (على سبيل المثال ، إحصائيات تقديم الانحراف أو الإحصائيات السابقة للانجراف) وإحصاءات المعالجة (أي إحصاءات التدريب للانحراف أو الإحصائيات الحالية للانجراف)> feature.skew_comparator.jensen_shannon_divergence.threshold أو feature.drift_comparator.jensen_shannon_divergence.threshold . يُحسب تباعد جنسن-شانون التقريبي بناءً على عدد العينات المقيسة في features.string_stats.rank_histogram features.num_stats.histograms
  • NO_DATA_IN_SPAN

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • حقول المخطط:
      • sparse_feature.value_feature
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "مفقود_قيمة" كاسم و
      • stat_value المخصص missing_value ! = 0
  • SPARSE_FEATURE_MISSING_INDEX

    • حقول المخطط:
      • sparse_feature.index_feature
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "الفهرس المفقود" كاسم و
      • يحتوي stat_index المخصص missing_index أي قيمة! = 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • حقول المخطط:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "min_length_diff" أو "max_length_diff" كاسم
      • تحتوي الإحصائيات المخصصة min_length_diff أو max_length_diff على أي قيمة! = 0
  • SPARSE_FEATURE_NAME_COLLISION

    • حقول المخطط:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • شرط الكشف:
      • sparse_feature.lifecycle_stage ! = PLANNED أو ALPHA أو DEBUG أو DEPRECATED و
      • feature.lifecycle_stage ! = PLANNED أو ALPHA أو DEBUG أو DEPRECATED و
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • حقول المخطط:
      • feature.domain_info
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "domain_info" كاسم و
      • لم يتم تعيين feature.domain_info بالفعل في المخطط و
      • هناك إحصائيات مخصصة domain_info واحدة لهذه الميزة
  • COMPARATOR_LOW_NUM_EXAMPLES

    • حقول المخطط:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • مجالات الإحصاء:
      • num_examples *
    • شرط الكشف:
      • num_examples *> 0 و
      • بروتو الإحصاءات السابقة متاح و
      • num_examples * / إحصاءات سابقة num_examples * <المقارنة min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • حقول المخطط:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • مجالات الإحصاء:
      • num_examples *
    • شرط الكشف:
      • num_examples *> 0 و
      • بروتو الإحصاءات السابقة متاح و
      • num_examples * / الإحصائيات السابقة num_examples *> المقارنة max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • حقول المخطط:
      • schema.dataset_constraints.min_examples_count
    • مجالات الإحصاء:
      • num_examples *
    • شرط الكشف:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • حقول المخطط:
      • schema.dataset_constraints.max_examples_count
    • مجالات الإحصاء:
      • num_examples *
    • شرط الكشف:
      • num_examples *> dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • حقول المخطط:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • شرط الكشف:
      • weighted_feature.lifecycle_stage ! = PLANNED أو ALPHA أو DEBUG أو DEPRECATED وإما
        • إذا كانت feature.lifecycle_stage ! = PLANNED أو ALPHA أو DEBUG أو DEPRECATED ،
          • weighted_feature.name == feature.name ؛ أو
        • إذا sparse_feature.lifecycle_stage ! = PLANNED أو ALPHA أو DEBUG أو DEPRECATED ،
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • حقول المخطط:
      • weighted_feature.feature
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "مفقود_قيمة" كاسم و
      • stat_value المخصص missing_value ! = 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • حقول المخطط:
      • weighted_feature.weight_feature
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "مفقود_وزن" كاسم و
      • الإحصاء المخصص missing_weight ! = 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • حقول المخطط:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • مجالات الإحصاء:
      • features.custom_stats
    • شرط الكشف:
      • features.custom_stats مع "min_weighted_length_diff" أو "max_weight_length_diff" كاسم ، و
      • min_weight_length_diff أو max_weight_length_diff إحصائية مخصصة! = 0
  • VALUE_NESTEDNESS_MISMATCH

    • حقول المخطط:
      • feature.value_count
      • feature.value_counts
    • مجالات الإحصاء:
      • features.common_stats.presence_and_valency_stats
    • شرط الكشف:
      • يتم تحديد feature.value_count ، وهناك presence_and_valency_stats (مما يشير إلى مستوى تداخل أكبر من واحد) و
      • يتم تحديد feature.value_counts ، وعدد مرات تكرار presence_and_valency_stats للميزة لا يتطابق مع عدد مرات تكرار value_count داخل feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • حقول المخطط:
      • feature.type
      • feature.domain_info
    • مجالات الإحصاء:
      • features.type
    • شرط الكشف:
      • إذا كانت features.type == BYTES ،
        • feature.domain_info من نوع غير متوافق ؛ أو
      • إذا كانت features.type ! = BYTES ،
        • لا يتطابق feature.domain_info مع feature.type (على سبيل المثال ، تم تحديد int_domain ، لكن type الميزة هو FLOAT )
  • FEATURE_MISSING_NAME

    • حقول المخطط:
      • feature.name
    • شرط الكشف:
      • لم يتم تحديد feature.name
  • FEATURE_MISSING_TYPE

    • حقول المخطط:
      • feature.type
    • شرط الكشف:
      • لم يتم تحديد feature.type
  • INVALID_SCHEMA_SPECIFICATION

    • حقول المخطط:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • شرط الكشف:
      • feature.presence.min_fraction <0.0 أو> 1.0 ، أو
      • feature.value_count.min <0 أو> feature.value_count.max أو
      • يتم تحديد مجال منطقي أو عدد صحيح أو عائم أو هيكلي أو feature.distribution_constraints لميزة وميزة.
      • تم تحديد feature.distribution_constraints لميزة ، ولكن لم يتم تحديد مجال على مستوى المخطط ولا feature.string_domain .
  • INVALID_DOMAIN_SPECIFICATION

    • حقول المخطط:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • شرط الكشف:
      • تم تحديد نوع feature.domain_info غير معروف أو
      • تم تحديد feature.domain ، ولكن لم يتم تحديد مجال مطابق على مستوى المخطط ، أو
      • إذا تم تحديد feature.bool_domain و feature.bool_domain.true_value و feature.bool_domain.false_value ،
        • feature.bool_domain.true_value == feature.bool_domain.false_value ، أو
      • إذا تم تحديد feature.string_domain ،
        • يحتوي على feature.string_domain.values ​​مكررة أو
        • تتجاوز feature.string_domain الحد الأقصى للحجم
  • UNEXPECTED_DATA_TYPE

    • حقول المخطط:
      • feature.type
    • مجالات الإحصاء:
      • features.type
    • شرط الكشف:
      • features.type ليس من النوع المحدد في feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • حقول المخطط:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • مجالات الإحصاء:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • شرط الكشف:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • حقول المخطط:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • مجالات الإحصاء:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • شرط الكشف:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • حقول المخطط:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • مجالات الإحصاء:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • شرط الكشف:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • حقول المخطط:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • مجالات الإحصاء:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • شرط الكشف:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • حقول المخطط:
      • feature.natural_language_domain.coverage.min_coverage
    • مجالات الإحصاء:
      • features.custom_stats.nl_statistics.feature_coverage
    • شرط الكشف:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • حقول المخطط:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • مجالات الإحصاء:
      • features.custom_stats.nl_statistics.avg_token_length
    • شرط الكشف:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • EMBEDDING_SHAPE_INVALID

    • لم يتم اكتشاف نوع الانحراف في TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • حقول المخطط:
      • feature.image_domain.max_image_byte_size
    • مجالات الإحصاء:
      • features.bytes_stats.max_num_bytes_int
    • شرط الكشف:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • حقول المخطط:
      • feature.shape
    • مجالات الإحصاء:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • شرط الكشف:
      • يتم تحديد feature.shape ، وإما
        • قد تكون الميزة مفقودة ( num_missing ! = 0) في بعض مستويات العش أو
        • قد تحتوي الميزة على عدد متغير من القيم ( min_num_values ! = max_num_values ) في بعض مستويات العش أو
        • الشكل المحدد غير متوافق مع إحصائيات عدد قيم الميزة. على سبيل المثال ، الشكل [16] متوافق مع ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (لميزة ثلاثية متداخلة))
  • STATS_NOT_AVAILBLE

    • يحدث الشذوذ عندما لا تكون الإحصائيات اللازمة للتحقق من القيود موجودة.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • حقول المخطط:
      • feature.lifecycle_stage
    • مجالات الإحصاء:
      • features.validation_derived_source
    • شرط الكشف:
      • feature.lifecycle_stage ليست واحدة من DERIVED أو DISABLED ، والميزات features.validation_derived_source موجودة ، مما يشير إلى أن هذه ميزة مشتقة.
  • DERIVED_FEATURE_INVALID_SOURCE

    • حقول المخطط:
      • feature.validation_derived_source
    • مجالات الإحصاء:
      • features.validation_derived_source
    • شرط الكشف:
      • features.validation_derived_source موجودة لميزة ، لكن feature.validation_derived_source المقابلة.

* في حالة توفر إحصاء مرجح لهذا الحقل ، فسيتم استخدامه بدلاً من الإحصاء غير الموزون.