הפניה לאנומליות של TensorFlow Data Validation

TFDV בודק חריגות על ידי השוואת סכימה ופרוטו/ים סטטיסטיים. התרשים הבא מפרט את סוגי החריגות ש-TFDV יכול לזהות, את שדות הסכימה והסטטיסטיקה המשמשים לאיתור כל סוג אנומליה, ואת התנאים שבהם כל סוג חריג מזוהה.

  • BOOL_TYPE_BIG_INT

    • שדות סכימה:
      • feature.bool_domain
    • שדות סטטיסטיקה:
      • features.num_stats.max
      • features.type
    • מצב זיהוי:
      • feature.bool_domain מצוין ו
      • features.type == INT ו
      • features.num_stats.max > 1
  • BOOL_TYPE_BYTES_NOT_INT

    • סוג אנומליה לא זוהה ב-TFDV
  • BOOL_TYPE_BYTES_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • BOOL_TYPE_FLOAT_NOT_INT

    • סוג אנומליה לא זוהה ב-TFDV
  • BOOL_TYPE_FLOAT_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • BOOL_TYPE_INT_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • BOOL_TYPE_SMALL_INT

    • שדות סכימה:
      • feature.bool_domain
    • שדות סטטיסטיקה:
      • features.num_stats.min
      • features.type
    • מצב זיהוי:
      • features.type == INT ו
      • feature.bool_domain מצוין ו
      • features.num_stats.min < 0
  • BOOL_TYPE_STRING_NOT_INT

    • סוג אנומליה לא זוהה ב-TFDV
  • BOOL_TYPE_UNEXPECTED_STRING

    • שדות סכימה:
      • feature.bool_domain
    • שדות סטטיסטיקה:
      • features.string_stats.rank_histogram *
    • מצב זיהוי:
      • features.type == STRING ו
      • feature.bool_domain מצוין ו
      • לפחות ערך אחד ב- rank_histogram * אינו feature.bool_domain.true_value או feature.bool_domain.false_value
  • BOOL_TYPE_UNEXPECTED_FLOAT

    • שדות סכימה:
      • feature.bool_domain
    • שדות סטטיסטיקה:
      • features.num_stats.min
      • features.num_stats.max
      • features.num_stats.histograms.num_nan
      • features.num_stats.histograms.buckets.low_value
      • features.num_stats.histograms.buckets.high_value
      • features.type
    • מצב זיהוי:
      • features.type == FLOAT ו
      • feature.bool_domain מצוין וגם אחד מהם
        • ( features.num_stats.min != 0 או features.num_stats.min != 1) או
        • ( features.num_stats.max != 0 או features.num_stats.max != 1) או
        • features.num_stats.histograms.num_nan > 0 או
        • ( features.num_stats.histograms.buckets.low_value != 0 או features.num_stats.histograms.buckets.high_value != 1) ו features.num_stats.histograms.buckets.sample_count > 0
  • BOOL_TYPE_INVALID_CONFIG

    • שדות סכימה:
      • feature.bool_domain
    • שדות סטטיסטיקה:
      • features.type
    • מצב זיהוי:
      • אם features.type == INT או FLOAT ,
        • feature.bool_domain מצוין ו
        • צוין feature.bool_domain.true_value או feature.bool_domain.false_value , או
      • if features.type == STRING ,
        • feature.bool_domain מצוין ו
        • feature.bool_domain.true_value ו- feature.bool_domain.false_value אינם מצוינים
  • ENUM_TYPE_BYTES_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • ENUM_TYPE_FLOAT_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • ENUM_TYPE_INT_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • ENUM_TYPE_INVALID_UTF8

    • שדות סטטיסטיקה:
      • features.string_stats.invalid_utf8_count
    • מצב זיהוי:
      • invalid_utf8_count > 0
  • ENUM_TYPE_UNEXPECTED_STRING_VALUES

    • שדות סכימה:
      • string_domain ו- feature.domain ; או feature.string_domain
      • feature.distribution_constraints.min_domain_mass
    • שדות סטטיסטיקה:
      • features.string_stats.rank_histogram *
    • מצב זיהוי:
      • או (מספר ערכים ב- rank_histogram * שאינם בדומיין / מספר ערכים כולל) > (1 - feature.distribution_constraints.min_domain_mass ) או
      • feature.distribution_constraints.min_domain_mass == 1.0 ויש ערכים בהיסטוגרמה שאינם בדומיין
  • FEATURE_TYPE_HIGH_NUMBER_VALUES

    • שדות סכימה:
      • feature.value_count.max
      • feature.value_counts.value_count.max
    • שדות סטטיסטיקה:
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
    • מצב זיהוי:
      • אם צוין feature.value_count.max
        • features.common_stats.max_num_values ​​> feature.value_count.max ; אוֹ
      • אם מצוין feature.value_counts
        • feature.value_counts.value_count.max < features.common_stats.presence_and_valency_stats.max_num_values ​​ברמת קינון נתונה
  • FEATURE_TYPE_LOW_FRACTION_PRESENT

    • שדות סכימה:
      • feature.presence.min_fraction
    • שדות סטטיסטיקה:
      • features.common_stats.num_non_missing *
      • num_examples *
    • מצב זיהוי:
      • feature.presence.min_fraction מצוין ו- ( features.common_stats.num_non_missing * / num_examples *) < feature.presence.min_fraction או
      • feature.presence.min_fraction == 1.0 ו- common_stats.num_missing != 0
  • FEATURE_TYPE_LOW_NUMBER_PRESENT

    • שדות סכימה:
      • feature.presence.min_count
    • שדות סטטיסטיקה:
      • features.common_stats.num_non_missing *
    • מצב זיהוי:
      • feature.presence.min_count מצוין וגם אחד מהם
        • features.common_stats.num_non_missing * == 0 או
        • features.common_stats.num_non_missing * < feature.presence.min_count
  • FEATURE_TYPE_LOW_NUMBER_VALUES

    • שדות סכימה:
      • feature.value_count.min
      • feature.value_counts.value_count.min
    • שדות סטטיסטיקה:
      • features.common_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.min_num_values
    • מצב זיהוי:
      • אם צוין feature.value_count.min
        • features.common_stats.min_num_values ​​< feature.value_count.min ; אוֹ
      • אם מצוין feature.value_counts
        • features.common_stats.presence_and_valency_stats.min_num_values ​​< feature.value_counts.value_count.min ברמת קינון נתונה
  • FEATURE_TYPE_NOT_PRESENT

    • שדות סכימה:
      • feature.in_environment או feature.not_in_environment או schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count או feature.presence.min_fraction
    • שדות סטטיסטיקה:
      • features.common_stats.num_non_missing *
    • מצב זיהוי:
      • feature.lifecycle_stage לא ב-[ PLANNED , ALPHA , DEBUG , DEPRECATED ] ו
      • common_stats.num_non_missing * == 0 ו
      • ( feature.presence.min_count > 0 או feature.presence.min_fraction > 0) ואחד
        • feature.in_environment == הסביבה הנוכחית או
        • feature.not_in_environment != הסביבה הנוכחית או
        • schema.default_environment != הסביבה הנוכחית
  • FEATURE_TYPE_NO_VALUES

    • סוג אנומליה לא זוהה ב-TFDV
  • FEATURE_TYPE_UNEXPECTED_REPEATED

    • סוג אנומליה לא זוהה ב-TFDV
  • FEATURE_TYPE_HIGH_UNIQUE

    • שדות סכימה:
      • feature.unique_constraints.max
    • שדות סטטיסטיקה:
      • features.string_stats.unique
    • מצב זיהוי:
      • features.string_stats.unique > feature.unique_constraints.max
  • FEATURE_TYPE_LOW_UNIQUE

    • שדות סכימה:
      • feature.unique_constraints.min
    • שדות סטטיסטיקה:
      • features.string_stats.unique
    • מצב זיהוי:
      • features.string_stats.unique < feature.unique_constraints.min
  • FEATURE_TYPE_NO_UNIQUE

    • שדות סכימה:
      • feature.unique_constraints
    • שדות סטטיסטיקה:
      • features.string_stats.unique
    • מצב זיהוי:
      • feature.unique_constraints צוינו אך לא נוכחים features.string_stats.unique (כמו במקרה שבו התכונה אינה מחרוזת או קטגורית)
  • FLOAT_TYPE_BIG_FLOAT

    • שדות סכימה:
      • feature.float_domain.max
    • שדות סטטיסטיקה:
      • features.type
      • features.num_stats.max או features.string_stats.rank_histogram
    • מצב זיהוי:
      • אם features.type == FLOAT ,
        • features.num_stats.max > feature.float_domain.max ; אוֹ
      • אם features.type == BYTES או STRING ,
        • ערך מקסימלי ב- features.string_stats.rank_histogram (כאשר הומר ל-float) > feature.float_domain.max
  • FLOAT_TYPE_NOT_FLOAT

    • סוג אנומליה לא זוהה ב-TFDV
  • FLOAT_TYPE_SMALL_FLOAT

    • שדות סכימה:
      • feature.float_domain.min
    • שדות סטטיסטיקה:
      • features.type
      • features.num_stats.min או features.string_stats.rank_histogram
    • מצב זיהוי:
      • אם features.type == FLOAT ,
        • features.num_stats.min < feature.float_domain.min ; אוֹ
      • אם features.type == BYTES או STRING ,
        • ערך מינימלי ב- features.string_stats.rank_histogram (כאשר הומר ל-float) < feature.float_domain.min
  • FLOAT_TYPE_STRING_NOT_FLOAT

    • שדות סכימה:
      • feature.float_domain
    • שדות סטטיסטיקה:
      • features.type
      • features.string_stats.rank_histogram
    • מצב זיהוי:
      • features.type == BYTES או STRING ו
      • features.string_stats.rank_histogram יש לפחות ערך אחד שלא ניתן להמיר ל-float
  • FLOAT_TYPE_NON_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • FLOAT_TYPE_UNKNOWN_TYPE_NUMBER

    • סוג אנומליה לא זוהה ב-TFDV
  • FLOAT_TYPE_HAS_NAN

    • שדות סכימה:
      • feature.float_domain.disallow_nan
    • שדות סטטיסטיקה:
      • features.type
      • features.num_stats.histograms.num_nan
    • מצב זיהוי:
      • float_domain.disallow_nan הוא נכון ו
      • features.num_stats.histograms.num_nan > 0
  • FLOAT_TYPE_HAS_INF

    • שדות סכימה:
      • feature.float_domain.disallow_inf
    • שדות סטטיסטיקה:
      • features.type
      • features.num_stats.min
      • features.num_stats.max
    • מצב זיהוי:
      • features.type == FLOAT
      • float_domain.disallow_inf נכון וגם או
        • features.num_stats.min == inf/-inf or
        • features.num_stats.max == inf/-inf
  • INT_TYPE_BIG_INT

    • שדות סכימה:
      • feature.int_domain.max
    • שדות סטטיסטיקה:
      • features.type
      • features.num_stats.max
      • features.string_stats.rank_histogram
    • מצב זיהוי:
      • אם features.type == INT ,
        • features.num_stats.max > feature.int_domain.max ; אוֹ
      • אם features.type == BYTES או STRING ,
        • ערך מקסימלי ב- features.string_stats.rank_histogram (כאשר הומר ל-int) > feature.int_domain.max
  • INT_TYPE_INT_EXPECTED

    • סוג אנומליה לא זוהה ב-TFDV
  • INT_TYPE_NOT_INT_STRING

    • שדות סכימה:
      • feature.int_domain
    • שדות סטטיסטיקה:
      • features.type
      • features.string_stats.rank_histogram
    • מצב זיהוי:
      • features.type == BYTES או STRING ו
      • features.string_stats.rank_histogram יש ערך אחד לפחות שלא ניתן להמיר ל-int
  • INT_TYPE_NOT_STRING

    • סוג אנומליה לא זוהה ב-TFDV
  • INT_TYPE_SMALL_INT

    • שדות סכימה:
      • feature.int_domain.min
    • שדות סטטיסטיקה:
      • features.type
      • features.num_stats.min
      • features.string_stats.rank_histogram
    • מצב זיהוי:
      • אם features.type == INT ,
        • features.num_stats.min < feature.int_domain.min ; אוֹ
      • אם features.type == BYTES או STRING ,
        • ערך מינימלי ב- features.string_stats.rank_histogram (כאשר הומר ל-int) < feature.int_domain.min
  • INT_TYPE_STRING_EXPECTED

    • סוג אנומליה לא זוהה ב-TFDV
  • INT_TYPE_UNKNOWN_TYPE_NUMBER

    • סוג אנומליה לא זוהה ב-TFDV
  • LOW_SUPPORTED_IMAGE_FRACTION

    • שדות סכימה:
      • feature.image_domain.minimum_supported_image_fraction
    • שדות סטטיסטיקה:
      • features.custom_stats.rank_histogram עבור custom_stats עם השם image_format_histogram . שים לב שיש להפעיל סטטיסטיקות של דומיין סמנטי כדי שהיסטוגרמה_תמונה_פורמט תיווצר וכדי שאימות זה יתבצע. נתונים סטטיסטיים של תחום סמנטי אינם נוצרים כברירת מחדל.
    • מצב זיהוי:
      • חלק הערכים הנתמכים מסוגי תמונת Tensorflow לכל סוגי התמונות קטן מ- feature.image_domain.minimum_supported_image_fraction .
  • SCHEMA_MISSING_COLUMN

    • שדות סכימה:
      • feature.in_environment או feature.not_in_environment או schema.default_environment
      • feature.lifecycle_stage
      • feature.presence.min_count או feature.presence.min_fraction
    • מצב זיהוי:
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG או DEPRECATED ו
      • feature.presence.min_count > 0 או feature.presence.min_fraction > 0 ו
      • feature.in_environment == הסביבה הנוכחית או feature.not_in_environment != הסביבה הנוכחית או schema.default_environment != הסביבה הנוכחית ו
      • לא נמצאה תכונה עם השם/הנתיב שצוין בפרוטו הסטטיסטיקה
  • SCHEMA_NEW_COLUMN

    • מצב זיהוי:
      • יש תכונה בפרוטו הסטטיסטיקה אבל אין תכונה עם השם/הנתיב שלה בפרוטו הסכמה
  • SCHEMA_TRAINING_SERVING_SKEW

    • סוג אנומליה לא זוהה ב-TFDV
  • STRING_TYPE_NOW_FLOAT

    • סוג אנומליה לא זוהה ב-TFDV
  • STRING_TYPE_NOW_INT

    • סוג אנומליה לא זוהה ב-TFDV
  • COMPARATOR_CONTROL_DATA_MISSING

    • שדות סכימה:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • מצב זיהוי:
      • פרוטו סטטיסטיקות בקרה (כלומר, הצגת נתונים סטטיסטיים עבור הטיה או נתונים סטטיסטיים קודמים עבור סחיפה) זמין אך אינו מכיל את התכונה שצוינה
  • COMPARATOR_TREATMENT_DATA_MISSING

    • סוג אנומליה לא זוהה ב-TFDV
  • COMPARATOR_L_INFTY_HIGH

    • שדות סכימה:
      • feature.skew_comparator.infinity_norm.threshold
      • feature.drift_comparator.infinity_norm.threshold
    • שדות סטטיסטיקה:
      • features.string_stats.rank_histogram *
    • מצב זיהוי:
      • נורמה L-אינסוף של הווקטור המייצגת את ההבדל בין הספירות המנורמלות מהתכונות features.string_stats.rank_histogram * בסטטיסטיקות הבקרה (כלומר, הצגת סטטיסטיקות להטיה או סטטיסטיקה קודמת לסחף) לבין סטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון עבור סטטיסטיקה סטטית או נוכחית עבור סחף) > feature.skew_comparator.infinity_norm.threshold או feature.drift_comparator.infinity_norm.threshold
  • COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH

    • שדות סכימה:
      • feature.skew_comparator.normalized_abs_difference.threshold
      • feature.drift_comparator.normalized_abs_difference.threshold
    • שדות סטטיסטיקה:
      • features.string_stats.rank_histogram
    • מצב זיהוי:
      • הפרש הספירה המוחלט המנורמל של ספירות הערכים features.string_stats.rank_histogram בסטטיסטיקות הבקרה (כלומר, הגשת סטטיסטיקות עבור הטיה או נתונים סטטיסטיים קודמים עבור סחיפה) וסטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון עבור הטיה או נתונים סטטיסטיים נוכחיים עבור סחיפה) feature.skew_comparator.normalized_abs_difference.threshold או feature.drift_comparator.normalized_abs_difference.threshold. הבדלי הספירה מנורמלים על ידי הספירה הכוללת בשני התנאים.
  • COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH

    • שדות סכימה:
      • feature.skew_comparator.jensen_shannon_divergence.threshold
      • feature.drift_comparator.jensen_shannon_divergence.threshold
    • שדות סטטיסטיקה:
      • features.num_stats.histograms מסוג STANDARD
      • features.string_stats.rank_histogram *
    • מצב זיהוי:
      • סטייה משוערת של Jensen-Shannon מחושבת בין הנתונים הסטטיסטיים של הבקרה (כלומר, הגשת סטטיסטיקות להטיה או סטטיסטיקה קודמת של סחיפה) לבין סטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון להטיה או סטטיסטיקה נוכחית של סחיפה) > feature.skew_comparator.jensen_shannon_divergence.threshold או feature.drift_comparator.jensen_shannon_divergence.threshold . הסטייה המשוערת של Jensen-Shannon מחושבת על סמך ספירות המדגם המנורמלות הן בהיסטוגרמה הסטנדרטית features.num_stats.histograms והן features.string_stats.rank_histogram *.
  • NO_DATA_IN_SPAN

    • סוג אנומליה לא זוהה ב-TFDV
  • SPARSE_FEATURE_MISSING_VALUE

    • שדות סכימה:
      • sparse_feature.value_feature
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "missing_value" בתור שם ו
      • missing_value נתון מותאם אישית != 0
  • SPARSE_FEATURE_MISSING_INDEX

    • שדות סכימה:
      • sparse_feature.index_feature
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "missing_index" בתור שם ו
      • הנתון המותאם אישית missing_index מכיל כל ערך != 0
  • SPARSE_FEATURE_LENGTH_MISMATCH

    • שדות סכימה:
      • sparse_feature.value_feature
      • sparse_feature.index_feature
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "min_length_diff" או "max_length_diff" כשם
      • סטטיסטיקה מותאמת אישית min_length_diff או max_length_diff מכילה כל ערך != 0
  • SPARSE_FEATURE_NAME_COLLISION

    • שדות סכימה:
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • מצב זיהוי:
      • sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG או DEPRECATED , ו
      • feature.lifecycle_stage != PLANNED , ALPHA , DEBUG או DEPRECATED , ו
      • sparse_feature.name == feature.name
  • SEMANTIC_DOMAIN_UPDATE

    • שדות סכימה:
      • feature.domain_info
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "domain_info" בתור שם ו
      • feature.domain_info לא מוגדר כבר בסכימה ו
      • יש נתון מותאם אישית יחיד domain_info עבור התכונה
  • COMPARATOR_LOW_NUM_EXAMPLES

    • שדות סכימה:
      • schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
    • שדות סטטיסטיקה:
      • num_examples *
    • מצב זיהוי:
      • num_examples * > 0 ו
      • פרוטו סטטיסטיקה קודם זמין ו
      • num_examples * / נתונים סטטיסטיים קודמים num_examples * < המשווה min_fraction_threshold
  • COMPARATOR_HIGH_NUM_EXAMPLES

    • שדות סכימה:
      • schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
      • schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
    • שדות סטטיסטיקה:
      • num_examples *
    • מצב זיהוי:
      • num_examples * > 0 ו
      • פרוטו סטטיסטיקה קודם זמין ו
      • num_examples * / נתונים סטטיסטיים קודמים num_examples * > max_fraction_threshold
  • DATASET_LOW_NUM_EXAMPLES

    • שדות סכימה:
      • schema.dataset_constraints.min_examples_count
    • שדות סטטיסטיקה:
      • num_examples *
    • מצב זיהוי:
      • num_examples * < dataset_constraints.min_examples_count
  • DATASET_HIGH_NUM_EXAMPLES

    • שדות סכימה:
      • schema.dataset_constraints.max_examples_count
    • שדות סטטיסטיקה:
      • num_examples *
    • מצב זיהוי:
      • num_examples * > dataset_constraints.max_examples_count
  • WEIGHTED_FEATURE_NAME_COLLISION

    • שדות סכימה:
      • weighted_feature.name
      • weighted_feature.lifecycle_stage
      • sparse_feature.name
      • sparse_feature.lifecycle_stage
      • feature.name
      • feature.lifecycle_stage
    • מצב זיהוי:
      • weighted_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG או DEPRECATED ואחד
        • if feature.lifecycle_stage != PLANNED , ALPHA , DEBUG , או DEPRECATED ,
          • weighted_feature.name == feature.name ; אוֹ
        • if sparse_feature.lifecycle_stage != PLANNED , ALPHA , DEBUG או DEPRECATED ,
          • weighted_feature.name == sparse_feature.name
  • WEIGHTED_FEATURE_MISSING_VALUE

    • שדות סכימה:
      • weighted_feature.feature
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "missing_value" בתור שם ו
      • missing_value נתון מותאם אישית != 0
  • WEIGHTED_FEATURE_MISSING_WEIGHT

    • שדות סכימה:
      • weighted_feature.weight_feature
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "missing_weight" כשם ו
      • נתון מותאם אישית missing_weight != 0
  • WEIGHTED_FEATURE_LENGTH_MISMATCH

    • שדות סכימה:
      • weighted_feature.feature
      • weighted_feature.weight_feature
    • שדות סטטיסטיקה:
      • features.custom_stats
    • מצב זיהוי:
      • features.custom_stats עם "min_weighted_length_diff" או "max_weight_length_diff" בתור השם, וכן
      • min_weight_length_diff או max_weight_length_diff סטטיסטיקה מותאמת אישית != 0
  • VALUE_NESTEDNESS_MISMATCH

    • שדות סכימה:
      • feature.value_count
      • feature.value_counts
    • שדות סטטיסטיקה:
      • features.common_stats.presence_and_valency_stats
    • מצב זיהוי:
      • מצויין feature.value_count , ויש presence_and_valency_stats חוזרת של התכונה (המציינת רמת קינון גדולה מאחת) ו
      • מצויין feature.value_counts , ומספר הפעמים שבהן presence_and_valency_stats של התכונה חוזרים על עצמם אינו תואם את מספר הפעמים שחוזר על עצמו value_count בתוך feature.value_counts
  • DOMAIN_INVALID_FOR_TYPE

    • שדות סכימה:
      • feature.type
      • feature.domain_info
    • שדות סטטיסטיקה:
      • features.type
    • מצב זיהוי:
      • אם features.type == BYTES ,
        • feature.domain_info הוא מסוג לא תואם; אוֹ
      • if features.type != BYTES ,
        • feature.domain_info אינו תואם feature.type (למשל, int_domain צוין, אבל type של הפיצ'ר הוא FLOAT )
  • FEATURE_MISSING_NAME

    • שדות סכימה:
      • feature.name
    • מצב זיהוי:
      • feature.name לא צוין
  • FEATURE_MISSING_TYPE

    • שדות סכימה:
      • feature.type
    • מצב זיהוי:
      • feature.type לא צוין
  • INVALID_SCHEMA_SPECIFICATION

    • שדות סכימה:
      • feature.domain_info
      • feature.presence.min_fraction
      • feature.value_count.min
      • feature.value_count.max
      • feature.distribution_constraints
    • מצב זיהוי:
      • feature.presence.min_fraction < 0.0 או > 1.0, או
      • feature.value_count.min < 0 או > feature.value_count.max , או
      • תחום bool, int, float, struct או סמנטי מצוין עבור תכונה ו- feature.distribution_constraints מצוין גם עבור תכונה זו, או
      • feature.distribution_constraints מצוין עבור תכונה, אך לא צוין תחום ברמת הסכימה או feature.string_domain עבור תכונה זו
  • INVALID_DOMAIN_SPECIFICATION

    • שדות סכימה:
      • feature.domain_info
      • feature.bool_domain
      • feature.string_domain
    • מצב זיהוי:
      • צוין סוג feature.domain_info לא ידוע או
      • feature.domain צוין, אך אין דומיין תואם שצוין ברמת הסכימה, או
      • אם מצוינים feature.bool_domain , feature.bool_domain.true_value ו- feature.bool_domain.false_value ,
        • feature.bool_domain.true_value == feature.bool_domain.false_value , או
      • אם צוין feature.string_domain ,
        • יש שכפול של feature.string_domain.values ​​or
        • feature.string_domain חורג מהגודל המרבי
  • UNEXPECTED_DATA_TYPE

    • שדות סכימה:
      • feature.type
    • שדות סטטיסטיקה:
      • features.type
    • מצב זיהוי:
      • features.type אינו מהסוג שצוין ב- feature.type
  • SEQUENCE_VALUE_TOO_FEW_OCCURRENCES

    • שדות סכימה:
      • feature.natural_language_domain.token_constraints.min_per_sequence
    • שדות סטטיסטיקה:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
    • מצב זיהוי:
      • min_per_sequence > per_sequence_min_frequency
  • SEQUENCE_VALUE_TOO_MANY_OCCURRENCES

    • שדות סכימה:
      • feature.natural_language_domain.token_constraints.max_per_sequence
    • שדות סטטיסטיקה:
      • features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
    • מצב זיהוי:
      • max_per_sequence < per_sequence_max_frequency
  • SEQUENCE_VALUE_TOO_SMALL_FRACTION

    • שדות סכימה:
      • feature.natural_language_domain.token_constraints.min_fraction_of_sequences
    • שדות סטטיסטיקה:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • מצב זיהוי:
      • min_fraction_of_sequences > fraction_of_sequences
  • SEQUENCE_VALUE_TOO_LARGE_FRACTION

    • שדות סכימה:
      • feature.natural_language_domain.token_constraints.max_fraction_of_sequences
    • שדות סטטיסטיקה:
      • features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
    • מצב זיהוי:
      • max_fraction_of_sequences < fraction_of_sequences
  • FEATURE_COVERAGE_TOO_LOW

    • שדות סכימה:
      • feature.natural_language_domain.coverage.min_coverage
    • שדות סטטיסטיקה:
      • features.custom_stats.nl_statistics.feature_coverage
    • מצב זיהוי:
      • feature_coverage < coverage.min_coverage
  • FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH

    • שדות סכימה:
      • feature.natural_language_domain.coverage.min_avg_token_length
    • שדות סטטיסטיקה:
      • features.custom_stats.nl_statistics.avg_token_length
    • מצב זיהוי:
      • avg_token_length < min_avg_token_length
  • NLP_WRONG_LOCATION

    • סוג אנומליה לא זוהה ב-TFDV
  • EMBEDDING_SHAPE_INVALID

    • סוג אנומליה לא זוהה ב-TFDV
  • MAX_IMAGE_BYTE_SIZE_EXCEEDED

    • שדות סכימה:
      • feature.image_domain.max_image_byte_size
    • שדות סטטיסטיקה:
      • features.bytes_stats.max_num_bytes_int
    • מצב זיהוי:
      • max_num_bytes_int > max_image_byte_size
  • INVALID_FEATURE_SHAPE

    • שדות סכימה:
      • feature.shape
    • שדות סטטיסטיקה:
      • features.common_stats.num_missing
      • features.common_stats.min_num_values
      • features.common_stats.max_num_values
      • features.common_stats.presence_and_valency_stats.num_missing
      • features.common_stats.presence_and_valency_stats.min_num_values
      • features.common_stats.presence_and_valency_stats.max_num_values
      • features.common_stats.weighted_presence_and_valency_stats
    • מצב זיהוי:
      • feature.shape מצוין, וגם
        • ייתכן שהתכונה חסרה ( num_missing != 0) ברמת קן כלשהי או
        • לתכונה עשויה להיות מספר משתנה של ערכים ( min_num_values ​​!= max_num_values ​​) ברמת קן כלשהי או
        • הצורה שצוינה אינה תואמת לסטטיסטיקת ספירת הערכים של התכונה. לדוגמה, צורה [16] תואמת ל- ( min_num_values ​​== max_num_values ​​== [2, 2, 4] (עבור תכונה בעלת 3 מקוננות))
  • STATS_NOT_AVAILBLE

    • אנומליה מתרחשת כאשר נתונים סטטיסטיים הדרושים לאימות אילוצים אינם קיימים.
  • DERIVED_FEATURE_BAD_LIFECYCLE

    • שדות סכימה:
      • feature.lifecycle_stage
    • שדות סטטיסטיקה:
      • features.validation_derived_source
    • מצב זיהוי:
      • feature.lifecycle_stage אינו אחד מ- DERIVED או DISABLED , ו- features.validation_derived_source קיים, מה שמצביע על כך שזוהי תכונה נגזרת.
  • DERIVED_FEATURE_INVALID_SOURCE

    • שדות סכימה:
      • feature.validation_derived_source
    • שדות סטטיסטיקה:
      • features.validation_derived_source
    • מצב זיהוי:
      • features.validation_derived_source קיים עבור תכונה, אך ה- feature.validation_derived_source התואם אינו.

* אם קיים נתון משוקלל עבור שדה זה, הוא ישמש במקום הנתון הלא משוקלל.