רכיב הצינור של StatisticsGen TFX מייצר נתונים סטטיסטיים של תכונות הן על נתוני ההדרכה והן על נתוני ההגשה, אשר יכולים לשמש רכיבי צינור אחרים. StatisticsGen משתמש ב-Beam כדי לשנות את קנה המידה למערכי נתונים גדולים.
- צורכת: מערכי נתונים שנוצרו על ידי רכיב צינור של ExampleGen.
- פולטות: סטטיסטיקות מערך נתונים.
אימות נתונים של StatisticsGen ו- TensorFlow
StatisticsGen עושה שימוש נרחב אימות נתונים TensorFlow עבור הפקת הסטטיסטיקה ממאגר הנתונים שלך.
שימוש ברכיב StatsGen
רכיב צינור של StatisticsGen הוא בדרך כלל קל מאוד לפריסה ודורש מעט התאמה אישית. קוד טיפוסי נראה כך:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
שימוש ברכיב StatsGen עם סכימה
עבור ההרצה הראשונה של צינור, הפלט של StatisticsGen ישמש להסקת סכימה. עם זאת, בריצות עוקבות ייתכן שתהיה לך סכימה שנקבעה באופן ידני המכילה מידע נוסף על מערך הנתונים שלך. על ידי מתן סכימה זו ל-StatisticsGen, TFDV יכול לספק נתונים סטטיסטיים שימושיים יותר בהתבסס על מאפיינים מוצהרים של מערך הנתונים שלך.
בהגדרה זו, תפעיל את StatisticsGen עם סכימה אוצרת שיובאה על ידי ImporterNode בצורה הבאה:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
יצירת סכימה אוצרת
Schema
ב TFX היא מופע של Metadata TensorFlow Schema
פרוטו . זה יכול להיות מורכב ב בפורמט טקסט מאפס. עם זאת, קל יותר להשתמש בסכימה להסיק המיוצר על ידי SchemaGen
כנקודת מוצא. לאחר SchemaGen
הרכיב בצע, בסכמה תמוקם מתחת לשורש הצינור בנתיב הבא:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
איפה <artifact_id>
מייצג מזהה ייחודי עבור גירסה זו של סכימה ב MLMD. פרוטו סכימה זו לאחר מכן ניתן לשנות כדי להעביר מידע על בסיס הנתונים אשר לא ניתן להסיק באופן מהימן, אשר יהפכו את הפלט של StatisticsGen
יותר שימושי האימות שבוצעו ExampleValidator
רכיב מחמירים יותר.
פרטים נוספים זמינים פניית API StatisticsGen .