TFDV בודק חריגות על ידי השוואת סכימה ופרוטו/ים סטטיסטיים. התרשים הבא מפרט את סוגי החריגות ש-TFDV יכול לזהות, את שדות הסכימה והסטטיסטיקה המשמשים לאיתור כל סוג אנומליה, ואת התנאים שבהם כל סוג חריג מזוהה.
BOOL_TYPE_BIG_INT
- שדות סכימה:
-
feature.bool_domain
-
- שדות סטטיסטיקה:
-
features.num_stats.max
-
features.type
-
- מצב זיהוי:
-
feature.bool_domain
מצוין ו -
features.type
==INT
ו -
features.num_stats.max
> 1
-
- שדות סכימה:
BOOL_TYPE_BYTES_NOT_INT
- סוג אנומליה לא זוהה ב-TFDV
BOOL_TYPE_BYTES_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
BOOL_TYPE_FLOAT_NOT_INT
- סוג אנומליה לא זוהה ב-TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
BOOL_TYPE_INT_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
BOOL_TYPE_SMALL_INT
- שדות סכימה:
-
feature.bool_domain
-
- שדות סטטיסטיקה:
-
features.num_stats.min
-
features.type
-
- מצב זיהוי:
-
features.type
==INT
ו -
feature.bool_domain
מצוין ו -
features.num_stats.min
< 0
-
- שדות סכימה:
BOOL_TYPE_STRING_NOT_INT
- סוג אנומליה לא זוהה ב-TFDV
BOOL_TYPE_UNEXPECTED_STRING
- שדות סכימה:
-
feature.bool_domain
-
- שדות סטטיסטיקה:
-
features.string_stats.rank_histogram
*
-
- מצב זיהוי:
-
features.type
==STRING
ו -
feature.bool_domain
מצוין ו - לפחות ערך אחד ב-
rank_histogram
* אינוfeature.bool_domain.true_value
אוfeature.bool_domain.false_value
-
- שדות סכימה:
BOOL_TYPE_UNEXPECTED_FLOAT
- שדות סכימה:
-
feature.bool_domain
-
- שדות סטטיסטיקה:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- מצב זיהוי:
-
features.type
==FLOAT
ו -
feature.bool_domain
מצוין וגם אחד מהם- (
features.num_stats.min
!= 0 אוfeatures.num_stats.min
!= 1) או - (
features.num_stats.max
!= 0 אוfeatures.num_stats.max
!= 1) או -
features.num_stats.histograms.num_nan
> 0 או - (
features.num_stats.histograms.buckets.low_value
!= 0 אוfeatures.num_stats.histograms.buckets.high_value
!= 1) וfeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- שדות סכימה:
BOOL_TYPE_INVALID_CONFIG
- שדות סכימה:
-
feature.bool_domain
-
- שדות סטטיסטיקה:
-
features.type
-
- מצב זיהוי:
- אם
features.type
==INT
אוFLOAT
,-
feature.bool_domain
מצוין ו - צוין
feature.bool_domain.true_value
אוfeature.bool_domain.false_value
, או
-
- if
features.type
==STRING
,-
feature.bool_domain
מצוין ו -
feature.bool_domain.true_value
ו-feature.bool_domain.false_value
אינם מצוינים
-
- אם
- שדות סכימה:
ENUM_TYPE_BYTES_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
ENUM_TYPE_INT_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
ENUM_TYPE_INVALID_UTF8
- שדות סטטיסטיקה:
-
features.string_stats.invalid_utf8_count
-
- מצב זיהוי:
-
invalid_utf8_count
> 0
-
- שדות סטטיסטיקה:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- שדות סכימה:
-
string_domain
ו-feature.domain
; אוfeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- שדות סטטיסטיקה:
-
features.string_stats.rank_histogram
*
-
- מצב זיהוי:
- או (מספר ערכים ב-
rank_histogram
* שאינם בדומיין / מספר ערכים כולל) > (1 -feature.distribution_constraints.min_domain_mass
) או -
feature.distribution_constraints.min_domain_mass
== 1.0 ויש ערכים בהיסטוגרמה שאינם בדומיין
- או (מספר ערכים ב-
- שדות סכימה:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- שדות סכימה:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- שדות סטטיסטיקה:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- מצב זיהוי:
- אם צוין
feature.value_count.max
-
features.common_stats.max_num_values
>feature.value_count.max
; אוֹ
-
- אם מצוין
feature.value_counts
-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
ברמת קינון נתונה
-
- אם צוין
- שדות סכימה:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- שדות סכימה:
-
feature.presence.min_fraction
-
- שדות סטטיסטיקה:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- מצב זיהוי:
-
feature.presence.min_fraction
מצוין ו- (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
או -
feature.presence.min_fraction
== 1.0 ו-common_stats.num_missing
!= 0
-
- שדות סכימה:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- שדות סכימה:
-
feature.presence.min_count
-
- שדות סטטיסטיקה:
-
features.common_stats.num_non_missing
*
-
- מצב זיהוי:
-
feature.presence.min_count
מצוין וגם אחד מהם-
features.common_stats.num_non_missing
* == 0 או -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- שדות סכימה:
FEATURE_TYPE_LOW_NUMBER_VALUES
- שדות סכימה:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- שדות סטטיסטיקה:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- מצב זיהוי:
- אם צוין
feature.value_count.min
-
features.common_stats.min_num_values
<feature.value_count.min
; אוֹ
-
- אם מצוין
feature.value_counts
-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
ברמת קינון נתונה
-
- אם צוין
- שדות סכימה:
FEATURE_TYPE_NOT_PRESENT
- שדות סכימה:
-
feature.in_environment
אוfeature.not_in_environment
אוschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
אוfeature.presence.min_fraction
-
- שדות סטטיסטיקה:
-
features.common_stats.num_non_missing
*
-
- מצב זיהוי:
-
feature.lifecycle_stage
לא ב-[PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] ו -
common_stats.num_non_missing
* == 0 ו - (
feature.presence.min_count
> 0 אוfeature.presence.min_fraction
> 0) ואחד-
feature.in_environment
== הסביבה הנוכחית או -
feature.not_in_environment
!= הסביבה הנוכחית או -
schema.default_environment
!= הסביבה הנוכחית
-
-
- שדות סכימה:
FEATURE_TYPE_NO_VALUES
- סוג אנומליה לא זוהה ב-TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- סוג אנומליה לא זוהה ב-TFDV
FEATURE_TYPE_HIGH_UNIQUE
- שדות סכימה:
-
feature.unique_constraints.max
-
- שדות סטטיסטיקה:
-
features.string_stats.unique
-
- מצב זיהוי:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- שדות סכימה:
FEATURE_TYPE_LOW_UNIQUE
- שדות סכימה:
-
feature.unique_constraints.min
-
- שדות סטטיסטיקה:
-
features.string_stats.unique
-
- מצב זיהוי:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- שדות סכימה:
FEATURE_TYPE_NO_UNIQUE
- שדות סכימה:
-
feature.unique_constraints
-
- שדות סטטיסטיקה:
-
features.string_stats.unique
-
- מצב זיהוי:
-
feature.unique_constraints
צוינו אך לא נוכחיםfeatures.string_stats.unique
(כמו במקרה שבו התכונה אינה מחרוזת או קטגורית)
-
- שדות סכימה:
FLOAT_TYPE_BIG_FLOAT
- שדות סכימה:
-
feature.float_domain.max
-
- שדות סטטיסטיקה:
-
features.type
-
features.num_stats.max
אוfeatures.string_stats.rank_histogram
-
- מצב זיהוי:
- אם
features.type
==FLOAT
,-
features.num_stats.max
>feature.float_domain.max
; אוֹ
-
- אם
features.type
==BYTES
אוSTRING
,- ערך מקסימלי ב-
features.string_stats.rank_histogram
(כאשר הומר ל-float) >feature.float_domain.max
- ערך מקסימלי ב-
- אם
- שדות סכימה:
FLOAT_TYPE_NOT_FLOAT
- סוג אנומליה לא זוהה ב-TFDV
FLOAT_TYPE_SMALL_FLOAT
- שדות סכימה:
-
feature.float_domain.min
-
- שדות סטטיסטיקה:
-
features.type
-
features.num_stats.min
אוfeatures.string_stats.rank_histogram
-
- מצב זיהוי:
- אם
features.type
==FLOAT
,-
features.num_stats.min
<feature.float_domain.min
; אוֹ
-
- אם
features.type
==BYTES
אוSTRING
,- ערך מינימלי ב-
features.string_stats.rank_histogram
(כאשר הומר ל-float) <feature.float_domain.min
- ערך מינימלי ב-
- אם
- שדות סכימה:
FLOAT_TYPE_STRING_NOT_FLOAT
- שדות סכימה:
-
feature.float_domain
-
- שדות סטטיסטיקה:
-
features.type
-
features.string_stats.rank_histogram
-
- מצב זיהוי:
-
features.type
==BYTES
אוSTRING
ו -
features.string_stats.rank_histogram
יש לפחות ערך אחד שלא ניתן להמיר ל-float
-
- שדות סכימה:
FLOAT_TYPE_NON_STRING
- סוג אנומליה לא זוהה ב-TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- סוג אנומליה לא זוהה ב-TFDV
FLOAT_TYPE_HAS_NAN
- שדות סכימה:
-
feature.float_domain.disallow_nan
-
- שדות סטטיסטיקה:
-
features.type
-
features.num_stats.histograms.num_nan
-
- מצב זיהוי:
-
float_domain.disallow_nan
הוא נכון ו -
features.num_stats.histograms.num_nan
> 0
-
- שדות סכימה:
FLOAT_TYPE_HAS_INF
- שדות סכימה:
-
feature.float_domain.disallow_inf
-
- שדות סטטיסטיקה:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- מצב זיהוי:
-
features.type
==FLOAT
-
float_domain.disallow_inf
נכון וגם או-
features.num_stats.min
==inf/-inf
or -
features.num_stats.max
==inf/-inf
-
-
- שדות סכימה:
INT_TYPE_BIG_INT
- שדות סכימה:
-
feature.int_domain.max
-
- שדות סטטיסטיקה:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- מצב זיהוי:
- אם
features.type
==INT
,-
features.num_stats.max
>feature.int_domain.max
; אוֹ
-
- אם
features.type
==BYTES
אוSTRING
,- ערך מקסימלי ב-
features.string_stats.rank_histogram
(כאשר הומר ל-int) >feature.int_domain.max
- ערך מקסימלי ב-
- אם
- שדות סכימה:
INT_TYPE_INT_EXPECTED
- סוג אנומליה לא זוהה ב-TFDV
INT_TYPE_NOT_INT_STRING
- שדות סכימה:
-
feature.int_domain
-
- שדות סטטיסטיקה:
-
features.type
-
features.string_stats.rank_histogram
-
- מצב זיהוי:
-
features.type
==BYTES
אוSTRING
ו -
features.string_stats.rank_histogram
יש ערך אחד לפחות שלא ניתן להמיר ל-int
-
- שדות סכימה:
INT_TYPE_NOT_STRING
- סוג אנומליה לא זוהה ב-TFDV
INT_TYPE_SMALL_INT
- שדות סכימה:
-
feature.int_domain.min
-
- שדות סטטיסטיקה:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- מצב זיהוי:
- אם
features.type
==INT
,-
features.num_stats.min
<feature.int_domain.min
; אוֹ
-
- אם
features.type
==BYTES
אוSTRING
,- ערך מינימלי ב-
features.string_stats.rank_histogram
(כאשר הומר ל-int) <feature.int_domain.min
- ערך מינימלי ב-
- אם
- שדות סכימה:
INT_TYPE_STRING_EXPECTED
- סוג אנומליה לא זוהה ב-TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- סוג אנומליה לא זוהה ב-TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- שדות סכימה:
-
feature.image_domain.minimum_supported_image_fraction
-
- שדות סטטיסטיקה:
-
features.custom_stats.rank_histogram
עבור custom_stats עם השםimage_format_histogram
. שים לב שיש להפעיל סטטיסטיקות של דומיין סמנטי כדי שהיסטוגרמה_תמונה_פורמט תיווצר וכדי שאימות זה יתבצע. נתונים סטטיסטיים של תחום סמנטי אינם נוצרים כברירת מחדל.
-
- מצב זיהוי:
- חלק הערכים הנתמכים מסוגי תמונת Tensorflow לכל סוגי התמונות קטן מ-
feature.image_domain.minimum_supported_image_fraction
.
- חלק הערכים הנתמכים מסוגי תמונת Tensorflow לכל סוגי התמונות קטן מ-
- שדות סכימה:
SCHEMA_MISSING_COLUMN
- שדות סכימה:
-
feature.in_environment
אוfeature.not_in_environment
אוschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
אוfeature.presence.min_fraction
-
- מצב זיהוי:
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
אוDEPRECATED
ו -
feature.presence.min_count
> 0 אוfeature.presence.min_fraction
> 0 ו -
feature.in_environment
== הסביבה הנוכחית אוfeature.not_in_environment
!= הסביבה הנוכחית אוschema.default_environment
!= הסביבה הנוכחית ו - לא נמצאה תכונה עם השם/הנתיב שצוין בפרוטו הסטטיסטיקה
-
- שדות סכימה:
SCHEMA_NEW_COLUMN
- מצב זיהוי:
- יש תכונה בפרוטו הסטטיסטיקה אבל אין תכונה עם השם/הנתיב שלה בפרוטו הסכמה
- מצב זיהוי:
SCHEMA_TRAINING_SERVING_SKEW
- סוג אנומליה לא זוהה ב-TFDV
STRING_TYPE_NOW_FLOAT
- סוג אנומליה לא זוהה ב-TFDV
STRING_TYPE_NOW_INT
- סוג אנומליה לא זוהה ב-TFDV
COMPARATOR_CONTROL_DATA_MISSING
- שדות סכימה:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- מצב זיהוי:
- פרוטו סטטיסטיקות בקרה (כלומר, הצגת נתונים סטטיסטיים עבור הטיה או נתונים סטטיסטיים קודמים עבור סחיפה) זמין אך אינו מכיל את התכונה שצוינה
- שדות סכימה:
COMPARATOR_TREATMENT_DATA_MISSING
- סוג אנומליה לא זוהה ב-TFDV
COMPARATOR_L_INFTY_HIGH
- שדות סכימה:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- שדות סטטיסטיקה:
-
features.string_stats.rank_histogram
*
-
- מצב זיהוי:
- נורמה L-אינסוף של הווקטור המייצגת את ההבדל בין הספירות המנורמלות מהתכונות
features.string_stats.rank_histogram
* בסטטיסטיקות הבקרה (כלומר, הצגת סטטיסטיקות להטיה או סטטיסטיקה קודמת לסחף) לבין סטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון עבור סטטיסטיקה סטטית או נוכחית עבור סחף) >feature.skew_comparator.infinity_norm.threshold
אוfeature.drift_comparator.infinity_norm.threshold
- נורמה L-אינסוף של הווקטור המייצגת את ההבדל בין הספירות המנורמלות מהתכונות
- שדות סכימה:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- שדות סכימה:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- שדות סטטיסטיקה:
-
features.string_stats.rank_histogram
-
- מצב זיהוי:
- הפרש הספירה המוחלט המנורמל של ספירות הערכים
features.string_stats.rank_histogram
בסטטיסטיקות הבקרה (כלומר, הגשת סטטיסטיקות עבור הטיה או נתונים סטטיסטיים קודמים עבור סחיפה) וסטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון עבור הטיה או נתונים סטטיסטיים נוכחיים עבור סחיפה) feature.skew_comparator.normalized_abs_difference.threshold או feature.drift_comparator.normalized_abs_difference.threshold. הבדלי הספירה מנורמלים על ידי הספירה הכוללת בשני התנאים.
- הפרש הספירה המוחלט המנורמל של ספירות הערכים
- שדות סכימה:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- שדות סכימה:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- שדות סטטיסטיקה:
-
features.num_stats.histograms
מסוגSTANDARD
-
features.string_stats.rank_histogram
*
-
- מצב זיהוי:
- סטייה משוערת של Jensen-Shannon מחושבת בין הנתונים הסטטיסטיים של הבקרה (כלומר, הגשת סטטיסטיקות להטיה או סטטיסטיקה קודמת של סחיפה) לבין סטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון להטיה או סטטיסטיקה נוכחית של סחיפה) >
feature.skew_comparator.jensen_shannon_divergence.threshold
אוfeature.drift_comparator.jensen_shannon_divergence.threshold
. הסטייה המשוערת של Jensen-Shannon מחושבת על סמך ספירות המדגם המנורמלות הן בהיסטוגרמה הסטנדרטיתfeatures.num_stats.histograms
והןfeatures.string_stats.rank_histogram
*.
- סטייה משוערת של Jensen-Shannon מחושבת בין הנתונים הסטטיסטיים של הבקרה (כלומר, הגשת סטטיסטיקות להטיה או סטטיסטיקה קודמת של סחיפה) לבין סטטיסטיקת הטיפול (כלומר, סטטיסטיקת אימון להטיה או סטטיסטיקה נוכחית של סחיפה) >
- שדות סכימה:
NO_DATA_IN_SPAN
- סוג אנומליה לא זוהה ב-TFDV
SPARSE_FEATURE_MISSING_VALUE
- שדות סכימה:
-
sparse_feature.value_feature
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "missing_value" בתור שם ו -
missing_value
נתון מותאם אישית != 0
-
- שדות סכימה:
SPARSE_FEATURE_MISSING_INDEX
- שדות סכימה:
-
sparse_feature.index_feature
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "missing_index" בתור שם ו - הנתון המותאם אישית
missing_index
מכיל כל ערך != 0
-
- שדות סכימה:
SPARSE_FEATURE_LENGTH_MISMATCH
- שדות סכימה:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "min_length_diff" או "max_length_diff" כשם - סטטיסטיקה מותאמת אישית
min_length_diff
אוmax_length_diff
מכילה כל ערך != 0
-
- שדות סכימה:
SPARSE_FEATURE_NAME_COLLISION
- שדות סכימה:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- מצב זיהוי:
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
אוDEPRECATED
, ו -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
אוDEPRECATED
, ו -
sparse_feature.name
==feature.name
-
- שדות סכימה:
SEMANTIC_DOMAIN_UPDATE
- שדות סכימה:
-
feature.domain_info
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "domain_info" בתור שם ו -
feature.domain_info
לא מוגדר כבר בסכימה ו - יש נתון מותאם אישית יחיד
domain_info
עבור התכונה
-
- שדות סכימה:
COMPARATOR_LOW_NUM_EXAMPLES
- שדות סכימה:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- שדות סטטיסטיקה:
-
num_examples
*
-
- מצב זיהוי:
-
num_examples
* > 0 ו - פרוטו סטטיסטיקה קודם זמין ו
-
num_examples
* / נתונים סטטיסטיים קודמיםnum_examples
* < המשווהmin_fraction_threshold
-
- שדות סכימה:
COMPARATOR_HIGH_NUM_EXAMPLES
- שדות סכימה:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- שדות סטטיסטיקה:
-
num_examples
*
-
- מצב זיהוי:
-
num_examples
* > 0 ו - פרוטו סטטיסטיקה קודם זמין ו
-
num_examples
* / נתונים סטטיסטיים קודמיםnum_examples
* >max_fraction_threshold
-
- שדות סכימה:
DATASET_LOW_NUM_EXAMPLES
- שדות סכימה:
-
schema.dataset_constraints.min_examples_count
-
- שדות סטטיסטיקה:
-
num_examples
*
-
- מצב זיהוי:
-
num_examples
* <dataset_constraints.min_examples_count
-
- שדות סכימה:
DATASET_HIGH_NUM_EXAMPLES
- שדות סכימה:
-
schema.dataset_constraints.max_examples_count
-
- שדות סטטיסטיקה:
-
num_examples
*
-
- מצב זיהוי:
-
num_examples
* >dataset_constraints.max_examples_count
-
- שדות סכימה:
WEIGHTED_FEATURE_NAME_COLLISION
- שדות סכימה:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- מצב זיהוי:
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
אוDEPRECATED
ואחד- if
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
, אוDEPRECATED
,-
weighted_feature.name
==feature.name
; אוֹ
-
- if
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
אוDEPRECATED
,-
weighted_feature.name
==sparse_feature.name
-
- if
-
- שדות סכימה:
WEIGHTED_FEATURE_MISSING_VALUE
- שדות סכימה:
-
weighted_feature.feature
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "missing_value" בתור שם ו -
missing_value
נתון מותאם אישית != 0
-
- שדות סכימה:
WEIGHTED_FEATURE_MISSING_WEIGHT
- שדות סכימה:
-
weighted_feature.weight_feature
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "missing_weight" כשם ו - נתון מותאם אישית
missing_weight
!= 0
-
- שדות סכימה:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- שדות סכימה:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- שדות סטטיסטיקה:
-
features.custom_stats
-
- מצב זיהוי:
-
features.custom_stats
עם "min_weighted_length_diff" או "max_weight_length_diff" בתור השם, וכן -
min_weight_length_diff
אוmax_weight_length_diff
סטטיסטיקה מותאמת אישית != 0
-
- שדות סכימה:
VALUE_NESTEDNESS_MISMATCH
- שדות סכימה:
-
feature.value_count
-
feature.value_counts
-
- שדות סטטיסטיקה:
-
features.common_stats.presence_and_valency_stats
-
- מצב זיהוי:
- מצויין
feature.value_count
, וישpresence_and_valency_stats
חוזרת של התכונה (המציינת רמת קינון גדולה מאחת) ו - מצויין
feature.value_counts
, ומספר הפעמים שבהןpresence_and_valency_stats
של התכונה חוזרים על עצמם אינו תואם את מספר הפעמים שחוזר על עצמוvalue_count
בתוךfeature.value_counts
- מצויין
- שדות סכימה:
DOMAIN_INVALID_FOR_TYPE
- שדות סכימה:
-
feature.type
-
feature.domain_info
-
- שדות סטטיסטיקה:
-
features.type
-
- מצב זיהוי:
- אם
features.type
==BYTES
,-
feature.domain_info
הוא מסוג לא תואם; אוֹ
-
- if
features.type
!=BYTES
,-
feature.domain_info
אינו תואםfeature.type
(למשל,int_domain
צוין, אבלtype
של הפיצ'ר הואFLOAT
)
-
- אם
- שדות סכימה:
FEATURE_MISSING_NAME
- שדות סכימה:
-
feature.name
-
- מצב זיהוי:
-
feature.name
לא צוין
-
- שדות סכימה:
FEATURE_MISSING_TYPE
- שדות סכימה:
-
feature.type
-
- מצב זיהוי:
-
feature.type
לא צוין
-
- שדות סכימה:
INVALID_SCHEMA_SPECIFICATION
- שדות סכימה:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- מצב זיהוי:
-
feature.presence.min_fraction
< 0.0 או > 1.0, או -
feature.value_count.min
< 0 או >feature.value_count.max
, או - תחום bool, int, float, struct או סמנטי מצוין עבור תכונה ו-
feature.distribution_constraints
מצוין גם עבור תכונה זו, או -
feature.distribution_constraints
מצוין עבור תכונה, אך לא צוין תחום ברמת הסכימה אוfeature.string_domain
עבור תכונה זו
-
- שדות סכימה:
INVALID_DOMAIN_SPECIFICATION
- שדות סכימה:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- מצב זיהוי:
- צוין סוג
feature.domain_info
לא ידוע או -
feature.domain
צוין, אך אין דומיין תואם שצוין ברמת הסכימה, או - אם מצוינים
feature.bool_domain
,feature.bool_domain.true_value
ו-feature.bool_domain.false_value
,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
, או
-
- אם צוין
feature.string_domain
,- יש שכפול של
feature.string_domain.values
or -
feature.string_domain
חורג מהגודל המרבי
- יש שכפול של
- צוין סוג
- שדות סכימה:
UNEXPECTED_DATA_TYPE
- שדות סכימה:
-
feature.type
-
- שדות סטטיסטיקה:
-
features.type
-
- מצב זיהוי:
-
features.type
אינו מהסוג שצוין ב-feature.type
-
- שדות סכימה:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- שדות סכימה:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- שדות סטטיסטיקה:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- מצב זיהוי:
-
min_per_sequence
>per_sequence_min_frequency
-
- שדות סכימה:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- שדות סכימה:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- שדות סטטיסטיקה:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- מצב זיהוי:
-
max_per_sequence
<per_sequence_max_frequency
-
- שדות סכימה:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- שדות סכימה:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- שדות סטטיסטיקה:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- מצב זיהוי:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- שדות סכימה:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- שדות סכימה:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- שדות סטטיסטיקה:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- מצב זיהוי:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- שדות סכימה:
FEATURE_COVERAGE_TOO_LOW
- שדות סכימה:
-
feature.natural_language_domain.coverage.min_coverage
-
- שדות סטטיסטיקה:
-
features.custom_stats.nl_statistics.feature_coverage
-
- מצב זיהוי:
-
feature_coverage
<coverage.min_coverage
-
- שדות סכימה:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- שדות סכימה:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- שדות סטטיסטיקה:
-
features.custom_stats.nl_statistics.avg_token_length
-
- מצב זיהוי:
-
avg_token_length
<min_avg_token_length
-
- שדות סכימה:
NLP_WRONG_LOCATION
- סוג אנומליה לא זוהה ב-TFDV
EMBEDDING_SHAPE_INVALID
- סוג אנומליה לא זוהה ב-TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- שדות סכימה:
-
feature.image_domain.max_image_byte_size
-
- שדות סטטיסטיקה:
-
features.bytes_stats.max_num_bytes_int
-
- מצב זיהוי:
-
max_num_bytes_int
>max_image_byte_size
-
- שדות סכימה:
INVALID_FEATURE_SHAPE
- שדות סכימה:
-
feature.shape
-
- שדות סטטיסטיקה:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- מצב זיהוי:
-
feature.shape
מצוין, וגם- ייתכן שהתכונה חסרה (
num_missing
!= 0) ברמת קן כלשהי או - לתכונה עשויה להיות מספר משתנה של ערכים (
min_num_values
!=max_num_values
) ברמת קן כלשהי או - הצורה שצוינה אינה תואמת לסטטיסטיקת ספירת הערכים של התכונה. לדוגמה, צורה
[16]
תואמת ל- (min_num_values
==max_num_values
==[2, 2, 4]
(עבור תכונה בעלת 3 מקוננות))
- ייתכן שהתכונה חסרה (
-
- שדות סכימה:
STATS_NOT_AVAILBLE
- אנומליה מתרחשת כאשר נתונים סטטיסטיים הדרושים לאימות אילוצים אינם קיימים.
DERIVED_FEATURE_BAD_LIFECYCLE
- שדות סכימה:
-
feature.lifecycle_stage
-
- שדות סטטיסטיקה:
-
features.validation_derived_source
-
- מצב זיהוי:
-
feature.lifecycle_stage
אינו אחד מ-DERIVED
אוDISABLED
, ו-features.validation_derived_source
קיים, מה שמצביע על כך שזוהי תכונה נגזרת.
-
- שדות סכימה:
DERIVED_FEATURE_INVALID_SOURCE
- שדות סכימה:
-
feature.validation_derived_source
-
- שדות סטטיסטיקה:
-
features.validation_derived_source
-
- מצב זיהוי:
-
features.validation_derived_source
קיים עבור תכונה, אך ה-feature.validation_derived_source
התואם אינו.
-
- שדות סכימה:
* אם קיים נתון משוקלל עבור שדה זה, הוא ישמש במקום הנתון הלא משוקלל.