TFDV sprawdza anomalie, porównując schemat i statystyki proto(-ów). Poniższy wykres zawiera listę typów anomalii, które TFDV może wykryć, pola schematu i statystyki używane do wykrywania każdego typu anomalii oraz warunki, w których wykrywany jest każdy typ anomalii.
BOOL_TYPE_BIG_INT
- Pola schematu:
-
feature.bool_domain
-
- Pola statystyki:
-
features.num_stats.max
-
features.type
-
- Warunek wykrywania:
-
feature.bool_domain
jest określona i -
features.type
==INT
i -
features.num_stats.max
> 1
-
- Pola schematu:
BOOL_TYPE_BYTES_NOT_INT
- Nie wykryto typu anomalii w TFDV
BOOL_TYPE_BYTES_NOT_STRING
- Nie wykryto typu anomalii w TFDV
BOOL_TYPE_FLOAT_NOT_INT
- Nie wykryto typu anomalii w TFDV
BOOL_TYPE_FLOAT_NOT_STRING
- Nie wykryto typu anomalii w TFDV
BOOL_TYPE_INT_NOT_STRING
- Nie wykryto typu anomalii w TFDV
BOOL_TYPE_SMALL_INT
- Pola schematu:
-
feature.bool_domain
-
- Pola statystyki:
-
features.num_stats.min
-
features.type
-
- Warunek wykrywania:
-
features.type
==INT
i -
feature.bool_domain
jest określona i -
features.num_stats.min
< 0
-
- Pola schematu:
BOOL_TYPE_STRING_NOT_INT
- Nie wykryto typu anomalii w TFDV
BOOL_TYPE_UNEXPECTED_STRING
- Pola schematu:
-
feature.bool_domain
-
- Pola statystyki:
-
features.string_stats.rank_histogram
*
-
- Warunek wykrywania:
-
features.type
==STRING
i -
feature.bool_domain
jest określona i - co najmniej jedna wartość w
rank_histogram
* nie jestfeature.bool_domain.true_value
anifeature.bool_domain.false_value
-
- Pola schematu:
BOOL_TYPE_UNEXPECTED_FLOAT
- Pola schematu:
-
feature.bool_domain
-
- Pola statystyki:
-
features.num_stats.min
-
features.num_stats.max
-
features.num_stats.histograms.num_nan
-
features.num_stats.histograms.buckets.low_value
-
features.num_stats.histograms.buckets.high_value
-
features.type
-
- Warunek wykrywania:
-
features.type
==FLOAT
i -
feature.bool_domain
jest określona i albo- (
features.num_stats.min
!= 0 lubfeatures.num_stats.min
!= 1) lub - (
features.num_stats.max
!= 0 lubfeatures.num_stats.max
!= 1) lub -
features.num_stats.histograms.num_nan
> 0 lub - (
features.num_stats.histograms.buckets.low_value
!= 0 lubfeatures.num_stats.histograms.buckets.high_value
!= 1) ifeatures.num_stats.histograms.buckets.sample_count
> 0
- (
-
- Pola schematu:
BOOL_TYPE_INVALID_CONFIG
- Pola schematu:
-
feature.bool_domain
-
- Pola statystyki:
-
features.type
-
- Warunek wykrywania:
- Jeśli
features.type
==INT
lubFLOAT
,-
feature.bool_domain
jest określona i - określono wartość
feature.bool_domain.true_value
lubfeature.bool_domain.false_value
, lub
-
- jeśli
features.type
==STRING
,-
feature.bool_domain
jest określona i -
feature.bool_domain.true_value
ifeature.bool_domain.false_value
nie są określone
-
- Jeśli
- Pola schematu:
ENUM_TYPE_BYTES_NOT_STRING
- Nie wykryto typu anomalii w TFDV
ENUM_TYPE_FLOAT_NOT_STRING
- Nie wykryto typu anomalii w TFDV
ENUM_TYPE_INT_NOT_STRING
- Nie wykryto typu anomalii w TFDV
ENUM_TYPE_INVALID_UTF8
- Pola statystyki:
-
features.string_stats.invalid_utf8_count
-
- Warunek wykrywania:
-
invalid_utf8_count
> 0
-
- Pola statystyki:
ENUM_TYPE_UNEXPECTED_STRING_VALUES
- Pola schematu:
-
string_domain
ifeature.domain
; lubfeature.string_domain
-
feature.distribution_constraints.min_domain_mass
-
- Pola statystyki:
-
features.string_stats.rank_histogram
*
-
- Warunek wykrywania:
- Albo (liczba wartości w
rank_histogram
*, które nie należą do dziedziny / całkowita liczba wartości) > (1 -feature.distribution_constraints.min_domain_mass
) albo -
feature.distribution_constraints.min_domain_mass
== 1.0 i na histogramie są wartości, które nie należą do domeny
- Albo (liczba wartości w
- Pola schematu:
FEATURE_TYPE_HIGH_NUMBER_VALUES
- Pola schematu:
-
feature.value_count.max
-
feature.value_counts.value_count.max
-
- Pola statystyki:
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
- Warunek wykrywania:
- Jeśli określono
feature.value_count.max
-
features.common_stats.max_num_values
>feature.value_count.max
; Lub
-
- jeśli określono
feature.value_counts
-
feature.value_counts.value_count.max
<features.common_stats.presence_and_valency_stats.max_num_values
na danym poziomie zagnieżdżenia
-
- Jeśli określono
- Pola schematu:
FEATURE_TYPE_LOW_FRACTION_PRESENT
- Pola schematu:
-
feature.presence.min_fraction
-
- Pola statystyki:
-
features.common_stats.num_non_missing
* -
num_examples
*
-
- Warunek wykrywania:
-
feature.presence.min_fraction
jest określony i (features.common_stats.num_non_missing
* /num_examples
*) <feature.presence.min_fraction
lub -
feature.presence.min_fraction
== 1.0 icommon_stats.num_missing
!= 0
-
- Pola schematu:
FEATURE_TYPE_LOW_NUMBER_PRESENT
- Pola schematu:
-
feature.presence.min_count
-
- Pola statystyki:
-
features.common_stats.num_non_missing
*
-
- Warunek wykrywania:
-
feature.presence.min_count
jest określony i albo-
features.common_stats.num_non_missing
* == 0 lub -
features.common_stats.num_non_missing
* <feature.presence.min_count
-
-
- Pola schematu:
FEATURE_TYPE_LOW_NUMBER_VALUES
- Pola schematu:
-
feature.value_count.min
-
feature.value_counts.value_count.min
-
- Pola statystyki:
-
features.common_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.min_num_values
-
- Warunek wykrywania:
- Jeśli określono
feature.value_count.min
-
features.common_stats.min_num_values
<feature.value_count.min
; Lub
-
- jeśli określono
feature.value_counts
-
features.common_stats.presence_and_valency_stats.min_num_values
<feature.value_counts.value_count.min
na danym poziomie zagnieżdżenia
-
- Jeśli określono
- Pola schematu:
FEATURE_TYPE_NOT_PRESENT
- Pola schematu:
-
feature.in_environment
lubfeature.not_in_environment
lubschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
lubfeature.presence.min_fraction
-
- Pola statystyki:
-
features.common_stats.num_non_missing
*
-
- Warunek wykrywania:
-
feature.lifecycle_stage
nie jest w [PLANNED
,ALPHA
,DEBUG
,DEPRECATED
] i -
common_stats.num_non_missing
* == 0 i - (
feature.presence.min_count
> 0 lubfeature.presence.min_fraction
> 0) i albo-
feature.in_environment
== obecne środowisko lub -
feature.not_in_environment
!= bieżące środowisko lub -
schema.default_environment
!= bieżące środowisko
-
-
- Pola schematu:
FEATURE_TYPE_NO_VALUES
- Nie wykryto typu anomalii w TFDV
FEATURE_TYPE_UNEXPECTED_REPEATED
- Nie wykryto typu anomalii w TFDV
FEATURE_TYPE_HIGH_UNIQUE
- Pola schematu:
-
feature.unique_constraints.max
-
- Pola statystyki:
-
features.string_stats.unique
-
- Warunek wykrywania:
-
features.string_stats.unique
>feature.unique_constraints.max
-
- Pola schematu:
FEATURE_TYPE_LOW_UNIQUE
- Pola schematu:
-
feature.unique_constraints.min
-
- Pola statystyki:
-
features.string_stats.unique
-
- Warunek wykrywania:
-
features.string_stats.unique
<feature.unique_constraints.min
-
- Pola schematu:
FEATURE_TYPE_NO_UNIQUE
- Pola schematu:
-
feature.unique_constraints
-
- Pola statystyki:
-
features.string_stats.unique
-
- Warunek wykrywania:
- Określono
feature.unique_constraints
, ale nie określonofeatures.string_stats.unique
(tak jak w przypadku, gdy cecha nie jest łańcuchem ani kategoryczną)
- Określono
- Pola schematu:
FLOAT_TYPE_BIG_FLOAT
- Pola schematu:
-
feature.float_domain.max
-
- Pola statystyki:
-
features.type
-
features.num_stats.max
lubfeatures.string_stats.rank_histogram
-
- Warunek wykrywania:
- Jeśli
features.type
==FLOAT
,-
features.num_stats.max
>feature.float_domain.max
; Lub
-
- if
features.type
==BYTES
lubSTRING
,- maksymalna wartość w
features.string_stats.rank_histogram
(po przekonwertowaniu na float) >feature.float_domain.max
- maksymalna wartość w
- Jeśli
- Pola schematu:
FLOAT_TYPE_NOT_FLOAT
- Nie wykryto typu anomalii w TFDV
FLOAT_TYPE_SMALL_FLOAT
- Pola schematu:
-
feature.float_domain.min
-
- Pola statystyki:
-
features.type
-
features.num_stats.min
lubfeatures.string_stats.rank_histogram
-
- Warunek wykrywania:
- Jeśli
features.type
==FLOAT
,-
features.num_stats.min
<feature.float_domain.min
; Lub
-
- if
features.type
==BYTES
lubSTRING
,- minimalna wartość w
features.string_stats.rank_histogram
(po przekonwertowaniu na float) <feature.float_domain.min
- minimalna wartość w
- Jeśli
- Pola schematu:
FLOAT_TYPE_STRING_NOT_FLOAT
- Pola schematu:
-
feature.float_domain
-
- Pola statystyki:
-
features.type
-
features.string_stats.rank_histogram
-
- Warunek wykrywania:
-
features.type
==BYTES
lubSTRING
i -
features.string_stats.rank_histogram
ma co najmniej jedną wartość, której nie można przekonwertować na liczbę zmiennoprzecinkową
-
- Pola schematu:
FLOAT_TYPE_NON_STRING
- Nie wykryto typu anomalii w TFDV
FLOAT_TYPE_UNKNOWN_TYPE_NUMBER
- Nie wykryto typu anomalii w TFDV
FLOAT_TYPE_HAS_NAN
- Pola schematu:
-
feature.float_domain.disallow_nan
-
- Pola statystyki:
-
features.type
-
features.num_stats.histograms.num_nan
-
- Warunek wykrywania:
-
float_domain.disallow_nan
jest prawdą i -
features.num_stats.histograms.num_nan
> 0
-
- Pola schematu:
FLOAT_TYPE_HAS_INF
- Pola schematu:
-
feature.float_domain.disallow_inf
-
- Pola statystyki:
-
features.type
-
features.num_stats.min
-
features.num_stats.max
-
- Warunek wykrywania:
-
features.type
==FLOAT
-
float_domain.disallow_inf
ma wartość true i albo-
features.num_stats.min
==inf/-inf
lub -
features.num_stats.max
==inf/-inf
-
-
- Pola schematu:
INT_TYPE_BIG_INT
- Pola schematu:
-
feature.int_domain.max
-
- Pola statystyki:
-
features.type
-
features.num_stats.max
-
features.string_stats.rank_histogram
-
- Warunek wykrywania:
- Jeśli
features.type
==INT
,-
features.num_stats.max
>feature.int_domain.max
; Lub
-
- if
features.type
==BYTES
lubSTRING
,- maksymalna wartość w
features.string_stats.rank_histogram
(po przekonwertowaniu na int) >feature.int_domain.max
- maksymalna wartość w
- Jeśli
- Pola schematu:
INT_TYPE_INT_EXPECTED
- Nie wykryto typu anomalii w TFDV
INT_TYPE_NOT_INT_STRING
- Pola schematu:
-
feature.int_domain
-
- Pola statystyki:
-
features.type
-
features.string_stats.rank_histogram
-
- Warunek wykrywania:
-
features.type
==BYTES
lubSTRING
i -
features.string_stats.rank_histogram
ma co najmniej jedną wartość, której nie można przekonwertować na liczbę całkowitą
-
- Pola schematu:
INT_TYPE_NOT_STRING
- Nie wykryto typu anomalii w TFDV
INT_TYPE_SMALL_INT
- Pola schematu:
-
feature.int_domain.min
-
- Pola statystyki:
-
features.type
-
features.num_stats.min
-
features.string_stats.rank_histogram
-
- Warunek wykrywania:
- Jeśli
features.type
==INT
,-
features.num_stats.min
<feature.int_domain.min
; Lub
-
- if
features.type
==BYTES
lubSTRING
,- minimalna wartość w
features.string_stats.rank_histogram
(po przeliczeniu na int) <feature.int_domain.min
- minimalna wartość w
- Jeśli
- Pola schematu:
INT_TYPE_STRING_EXPECTED
- Nie wykryto typu anomalii w TFDV
INT_TYPE_UNKNOWN_TYPE_NUMBER
- Nie wykryto typu anomalii w TFDV
LOW_SUPPORTED_IMAGE_FRACTION
- Pola schematu:
-
feature.image_domain.minimum_supported_image_fraction
-
- Pola statystyki:
-
features.custom_stats.rank_histogram
dla custom_stats o nazwieimage_format_histogram
. Pamiętaj, że statystyki domeny semantycznej muszą być włączone, aby wygenerować image_format_histogram i przeprowadzić tę weryfikację. Statystyki domeny semantycznej nie są domyślnie generowane.
-
- Warunek wykrywania:
- Ułamek wartości obsługiwanych typów obrazów Tensorflow dla wszystkich typów obrazów jest mniejszy niż
feature.image_domain.minimum_supported_image_fraction
.
- Ułamek wartości obsługiwanych typów obrazów Tensorflow dla wszystkich typów obrazów jest mniejszy niż
- Pola schematu:
SCHEMA_MISSING_COLUMN
- Pola schematu:
-
feature.in_environment
lubfeature.not_in_environment
lubschema.default_environment
-
feature.lifecycle_stage
-
feature.presence.min_count
lubfeature.presence.min_fraction
-
- Warunek wykrywania:
-
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
lubDEPRECATED
i -
feature.presence.min_count
> 0 lubfeature.presence.min_fraction
> 0 i -
feature.in_environment
== bieżące środowisko lubfeature.not_in_environment
!= bieżące środowisko lubschema.default_environment
!= bieżące środowisko i - w protokole statystyki nie znaleziono obiektu o podanej nazwie/ścieżce
-
- Pola schematu:
SCHEMA_NEW_COLUMN
- Warunek wykrywania:
- w protokole statystyk istnieje funkcja, ale w protokole schematu nie ma funkcji z jej nazwą/ścieżką
- Warunek wykrywania:
SCHEMA_TRAINING_SERVING_SKEW
- Nie wykryto typu anomalii w TFDV
STRING_TYPE_NOW_FLOAT
- Nie wykryto typu anomalii w TFDV
STRING_TYPE_NOW_INT
- Nie wykryto typu anomalii w TFDV
COMPARATOR_CONTROL_DATA_MISSING
- Pola schematu:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Warunek wykrywania:
- Proto statystyk kontrolnych (tj. udostępnianie statystyk dla pochylenia lub poprzednich statystyk dla dryfu) jest dostępne, ale nie zawiera określonej funkcji
- Pola schematu:
COMPARATOR_TREATMENT_DATA_MISSING
- Nie wykryto typu anomalii w TFDV
COMPARATOR_L_INFTY_HIGH
- Pola schematu:
-
feature.skew_comparator.infinity_norm.threshold
-
feature.drift_comparator.infinity_norm.threshold
-
- Pola statystyki:
-
features.string_stats.rank_histogram
*
-
- Warunek wykrywania:
- Norma L-nieskończoności wektora, który reprezentuje różnicę między znormalizowanymi zliczeniami z
features.string_stats.rank_histogram
* w statystykach kontrolnych (tj. pochylenie lub bieżące statystyki dryfu) >feature.skew_comparator.infinity_norm.threshold
lubfeature.drift_comparator.infinity_norm.threshold
- Norma L-nieskończoności wektora, który reprezentuje różnicę między znormalizowanymi zliczeniami z
- Pola schematu:
COMPARATOR_NORMALIZED_ABSOLUTE_DIFFERENCE_HIGH
- Pola schematu:
-
feature.skew_comparator.normalized_abs_difference.threshold
-
feature.drift_comparator.normalized_abs_difference.threshold
-
- Pola statystyki:
-
features.string_stats.rank_histogram
-
- Warunek wykrywania:
- Znormalizowana bezwzględna różnica zliczeń między wartościami z
features.string_stats.rank_histogram
w statystykach kontrolnych (tj. statystyki udostępniania dla pochylenia lub poprzednie statystyki dla dryfu) i statystyki leczenia (tj. statystyki treningu dla pochylenia lub bieżące statystyki dla dryfu) przekroczyła Feature.skew_comparator.normalized_abs_difference.threshold lub feature.drift_comparator.normalized_abs_difference.threshold. Różnice w liczbie są normalizowane przez całkowitą liczbę w obu warunkach.
- Znormalizowana bezwzględna różnica zliczeń między wartościami z
- Pola schematu:
COMPARATOR_JENSEN_SHANNON_DIVERGENCE_HIGH
- Pola schematu:
-
feature.skew_comparator.jensen_shannon_divergence.threshold
-
feature.drift_comparator.jensen_shannon_divergence.threshold
-
- Pola statystyki:
-
features.num_stats.histograms
typuSTANDARD
-
features.string_stats.rank_histogram
*
-
- Warunek wykrywania:
- Przybliżona rozbieżność Jensena-Shannona obliczona między statystykami kontrolnymi (tj. statystykami serwowania dla pochylenia lub poprzednimi statystykami dla dryfu) a statystykami leczenia (tj. statystykami treningu dla pochylenia lub bieżącymi statystykami dla dryfu) >
feature.skew_comparator.jensen_shannon_divergence.threshold
lubfeature.drift_comparator.jensen_shannon_divergence.threshold
. Przybliżona rozbieżność Jensena-Shannona jest obliczana na podstawie znormalizowanych zliczeń próbek na histogramie standardowymfeatures.num_stats.histograms
ifeatures.string_stats.rank_histogram
*.
- Przybliżona rozbieżność Jensena-Shannona obliczona między statystykami kontrolnymi (tj. statystykami serwowania dla pochylenia lub poprzednimi statystykami dla dryfu) a statystykami leczenia (tj. statystykami treningu dla pochylenia lub bieżącymi statystykami dla dryfu) >
- Pola schematu:
NO_DATA_IN_SPAN
- Nie wykryto typu anomalii w TFDV
SPARSE_FEATURE_MISSING_VALUE
- Pola schematu:
-
sparse_feature.value_feature
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z „missing_value” jako nazwą i -
missing_value
statystyka niestandardowa != 0
-
- Pola schematu:
SPARSE_FEATURE_MISSING_INDEX
- Pola schematu:
-
sparse_feature.index_feature
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z „missing_index” jako nazwą i - Niestandardowa statystyka
missing_index
zawiera dowolną wartość != 0
-
- Pola schematu:
SPARSE_FEATURE_LENGTH_MISMATCH
- Pola schematu:
-
sparse_feature.value_feature
-
sparse_feature.index_feature
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z nazwą „min_length_diff” lub „max_length_diff”. - Niestandardowa statystyka
min_length_diff
lubmax_length_diff
zawiera dowolną wartość != 0
-
- Pola schematu:
SPARSE_FEATURE_NAME_COLLISION
- Pola schematu:
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Warunek wykrywania:
-
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
lubDEPRECATED
oraz -
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
lubDEPRECATED
, oraz -
sparse_feature.name
==feature.name
-
- Pola schematu:
SEMANTIC_DOMAIN_UPDATE
- Pola schematu:
-
feature.domain_info
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z „domain_info” jako nazwą i -
feature.domain_info
nie jest jeszcze ustawiony w schemacie i - istnieje jedna niestandardowa statystyka
domain_info
dla tej funkcji
-
- Pola schematu:
COMPARATOR_LOW_NUM_EXAMPLES
- Pola schematu:
-
schema.dataset_constraints.num_examples_drift_comparator.min_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.min_fraction_threshold
-
- Pola statystyki:
-
num_examples
*
-
- Warunek wykrywania:
-
num_examples
* > 0 i - dostępne jest poprzednie proto statystyk i
-
num_examples
* / poprzednie statystykinum_examples
* < komparatormin_fraction_threshold
-
- Pola schematu:
COMPARATOR_HIGH_NUM_EXAMPLES
- Pola schematu:
-
schema.dataset_constraints.num_examples_drift_comparator.max_fraction_threshold
-
schema.dataset_constraints.num_examples_version_comparator.max_fraction_threshold
-
- Pola statystyki:
-
num_examples
*
-
- Warunek wykrywania:
-
num_examples
* > 0 i - dostępne jest poprzednie proto statystyk i
-
num_examples
* / poprzednie statystykinum_examples
* > komparatormax_fraction_threshold
-
- Pola schematu:
DATASET_LOW_NUM_EXAMPLES
- Pola schematu:
-
schema.dataset_constraints.min_examples_count
-
- Pola statystyki:
-
num_examples
*
-
- Warunek wykrywania:
-
num_examples
* <dataset_constraints.min_examples_count
-
- Pola schematu:
DATASET_HIGH_NUM_EXAMPLES
- Pola schematu:
-
schema.dataset_constraints.max_examples_count
-
- Pola statystyki:
-
num_examples
*
-
- Warunek wykrywania:
-
num_examples
* >dataset_constraints.max_examples_count
-
- Pola schematu:
WEIGHTED_FEATURE_NAME_COLLISION
- Pola schematu:
-
weighted_feature.name
-
weighted_feature.lifecycle_stage
-
sparse_feature.name
-
sparse_feature.lifecycle_stage
-
feature.name
-
feature.lifecycle_stage
-
- Warunek wykrywania:
-
weighted_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
lubDEPRECATED
i albo- if
feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
lubDEPRECATED
,-
weighted_feature.name
==feature.name
; Lub
-
- if
sparse_feature.lifecycle_stage
!=PLANNED
,ALPHA
,DEBUG
lubDEPRECATED
,-
weighted_feature.name
==sparse_feature.name
-
- if
-
- Pola schematu:
WEIGHTED_FEATURE_MISSING_VALUE
- Pola schematu:
-
weighted_feature.feature
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z „missing_value” jako nazwą i -
missing_value
statystyka niestandardowa != 0
-
- Pola schematu:
WEIGHTED_FEATURE_MISSING_WEIGHT
- Pola schematu:
-
weighted_feature.weight_feature
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z „missing_weight” jako nazwą i -
missing_weight
własna statystyka != 0
-
- Pola schematu:
WEIGHTED_FEATURE_LENGTH_MISMATCH
- Pola schematu:
-
weighted_feature.feature
-
weighted_feature.weight_feature
-
- Pola statystyki:
-
features.custom_stats
-
- Warunek wykrywania:
-
features.custom_stats
z nazwą „min_weighted_length_diff” lub „max_weight_length_diff”, oraz -
min_weight_length_diff
lubmax_weight_length_diff
statystyka niestandardowa != 0
-
- Pola schematu:
VALUE_NESTEDNESS_MISMATCH
- Pola schematu:
-
feature.value_count
-
feature.value_counts
-
- Pola statystyki:
-
features.common_stats.presence_and_valency_stats
-
- Warunek wykrywania:
- określono
feature.value_count
i powtarza się parametrpresence_and_valency_stats
elementu (co wskazuje na poziom zagnieżdżenia większy niż jeden) oraz - określono
feature.value_counts
, a liczba powtórzeń statystykpresence_and_valency_stats
nie odpowiada liczbie powtórzeńvalue_count
w ramachfeature.value_counts
- określono
- Pola schematu:
DOMAIN_INVALID_FOR_TYPE
- Pola schematu:
-
feature.type
-
feature.domain_info
-
- Pola statystyki:
-
features.type
-
- Warunek wykrywania:
- Jeśli
features.type
==BYTES
,-
feature.domain_info
jest niezgodnego typu; Lub
-
- jeśli
features.type
!=BYTES
,-
feature.domain_info
nie pasuje dofeature.type
(np. określonoint_domain
, aletype
elementu jestFLOAT
)
-
- Jeśli
- Pola schematu:
FEATURE_MISSING_NAME
- Pola schematu:
-
feature.name
-
- Warunek wykrywania:
-
feature.name
nie jest określona
-
- Pola schematu:
FEATURE_MISSING_TYPE
- Pola schematu:
-
feature.type
-
- Warunek wykrywania:
-
feature.type
nie jest określony
-
- Pola schematu:
INVALID_SCHEMA_SPECIFICATION
- Pola schematu:
-
feature.domain_info
-
feature.presence.min_fraction
-
feature.value_count.min
-
feature.value_count.max
-
feature.distribution_constraints
-
- Warunek wykrywania:
-
feature.presence.min_fraction
< 0,0 lub > 1,0 lub -
feature.value_count.min
< 0 lub >feature.value_count.max
, lub - dla funkcji określono domenę bool, int, float, struct lub semantyczną, a dla tej funkcji określono również
feature.distribution_constraints
lub -
feature.distribution_constraints
jest określona dla funkcji, ale dla tej funkcji nie określono ani domeny na poziomie schematu, anifeature.string_domain
-
- Pola schematu:
INVALID_DOMAIN_SPECIFICATION
- Pola schematu:
-
feature.domain_info
-
feature.bool_domain
-
feature.string_domain
-
- Warunek wykrywania:
- Określono nieznany typ
feature.domain_info
lub - Określono
feature.domain
, ale nie określono pasującej domeny na poziomie schematu lub - jeśli
feature.bool_domain
,feature.bool_domain.true_value
ifeature.bool_domain.false_value
są określone,-
feature.bool_domain.true_value
==feature.bool_domain.false_value
lub
-
- jeśli określono
feature.string_domain
,- ma zduplikowane atrybuty
feature.string_domain.values
lub -
feature.string_domain
przekracza maksymalny rozmiar
- ma zduplikowane atrybuty
- Określono nieznany typ
- Pola schematu:
UNEXPECTED_DATA_TYPE
- Pola schematu:
-
feature.type
-
- Pola statystyki:
-
features.type
-
- Warunek wykrywania:
-
features.type
nie jest typu określonego wfeature.type
-
- Pola schematu:
SEQUENCE_VALUE_TOO_FEW_OCCURRENCES
- Pola schematu:
-
feature.natural_language_domain.token_constraints.min_per_sequence
-
- Pola statystyki:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_min_frequency
-
- Warunek wykrywania:
-
min_per_sequence
>per_sequence_min_frequency
-
- Pola schematu:
SEQUENCE_VALUE_TOO_MANY_OCCURRENCES
- Pola schematu:
-
feature.natural_language_domain.token_constraints.max_per_sequence
-
- Pola statystyki:
-
features.custom_stats.nl_statistics.token_statistics.per_sequence_max_frequency
-
- Warunek wykrywania:
-
max_per_sequence
<per_sequence_max_frequency
-
- Pola schematu:
SEQUENCE_VALUE_TOO_SMALL_FRACTION
- Pola schematu:
-
feature.natural_language_domain.token_constraints.min_fraction_of_sequences
-
- Pola statystyki:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Warunek wykrywania:
-
min_fraction_of_sequences
>fraction_of_sequences
-
- Pola schematu:
SEQUENCE_VALUE_TOO_LARGE_FRACTION
- Pola schematu:
-
feature.natural_language_domain.token_constraints.max_fraction_of_sequences
-
- Pola statystyki:
-
features.custom_stats.nl_statistics.token_statistics.fraction_of_sequences
-
- Warunek wykrywania:
-
max_fraction_of_sequences
<fraction_of_sequences
-
- Pola schematu:
FEATURE_COVERAGE_TOO_LOW
- Pola schematu:
-
feature.natural_language_domain.coverage.min_coverage
-
- Pola statystyki:
-
features.custom_stats.nl_statistics.feature_coverage
-
- Warunek wykrywania:
-
feature_coverage
<coverage.min_coverage
-
- Pola schematu:
FEATURE_COVERAGE_TOO_SHORT_AVG_TOKEN_LENGTH
- Pola schematu:
-
feature.natural_language_domain.coverage.min_avg_token_length
-
- Pola statystyki:
-
features.custom_stats.nl_statistics.avg_token_length
-
- Warunek wykrywania:
-
avg_token_length
<min_avg_token_length
-
- Pola schematu:
NLP_WRONG_LOCATION
- Nie wykryto typu anomalii w TFDV
EMBEDDING_SHAPE_INVALID
- Nie wykryto typu anomalii w TFDV
MAX_IMAGE_BYTE_SIZE_EXCEEDED
- Pola schematu:
-
feature.image_domain.max_image_byte_size
-
- Pola statystyki:
-
features.bytes_stats.max_num_bytes_int
-
- Warunek wykrywania:
-
max_num_bytes_int
>max_image_byte_size
-
- Pola schematu:
INVALID_FEATURE_SHAPE
- Pola schematu:
-
feature.shape
-
- Pola statystyki:
-
features.common_stats.num_missing
-
features.common_stats.min_num_values
-
features.common_stats.max_num_values
-
features.common_stats.presence_and_valency_stats.num_missing
-
features.common_stats.presence_and_valency_stats.min_num_values
-
features.common_stats.presence_and_valency_stats.max_num_values
-
features.common_stats.weighted_presence_and_valency_stats
-
- Warunek wykrywania:
-
feature.shape
jest określony i albo- funkcji może brakować (
num_missing
!= 0) na pewnym poziomie zagnieżdżenia lub - cecha może mieć zmienną liczbę wartości (
min_num_values
!=max_num_values
) na pewnym poziomie zagnieżdżenia lub - określony kształt nie jest zgodny ze statystykami zliczania wartości cechy. Na przykład kształt
[16]
jest zgodny z (min_num_values
==max_num_values
==[2, 2, 4]
(dla funkcji 3-zagnieżdżonej))
- funkcji może brakować (
-
- Pola schematu:
STATS_NOT_AVAILBLE
- Anomalia występuje, gdy nie są dostępne statystyki potrzebne do sprawdzenia ograniczeń.
DERIVED_FEATURE_BAD_LIFECYCLE
- Pola schematu:
-
feature.lifecycle_stage
-
- Pola statystyki:
-
features.validation_derived_source
-
- Warunek wykrywania:
-
feature.lifecycle_stage
nie jest jednym zDERIVED
aniDISABLED
, afeatures.validation_derived_source
jest obecny, co wskazuje, że jest to funkcja pochodna.
-
- Pola schematu:
DERIVED_FEATURE_INVALID_SOURCE
- Pola schematu:
-
feature.validation_derived_source
-
- Pola statystyki:
-
features.validation_derived_source
-
- Warunek wykrywania:
-
features.validation_derived_source
jest obecny dla funkcji, ale odpowiadający mufeature.validation_derived_source
nie.
-
- Pola schematu:
* Jeśli dla tego pola dostępna jest statystyka ważona, zostanie ona użyta zamiast statystyki nieważonej.