רכיב הצינור של StatisticsGen TFX

רכיב הצינור של StatisticsGen TFX מייצר נתונים סטטיסטיים של תכונות הן על נתוני ההדרכה והן על נתוני ההגשה, אשר יכולים לשמש רכיבי צינור אחרים. StatisticsGen משתמש ב-Beam כדי לשנות את קנה המידה למערכי נתונים גדולים.

  • צורכת: מערכי נתונים שנוצרו על ידי רכיב צינור של ExampleGen.
  • פולטות: סטטיסטיקות מערך נתונים.

אימות נתונים של StatisticsGen ו- TensorFlow

StatisticsGen עושה שימוש נרחב באימות נתונים של TensorFlow ליצירת נתונים סטטיסטיים ממערך הנתונים שלך.

שימוש ברכיב StatsGen

רכיב צינור של StatisticsGen הוא בדרך כלל קל מאוד לפריסה ודורש מעט התאמה אישית. קוד טיפוסי נראה כך:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

שימוש ברכיב StatsGen עם סכימה

עבור ההרצה הראשונה של צינור, הפלט של StatisticsGen ישמש כדי להסיק סכימה. עם זאת, בריצות עוקבות ייתכן שתהיה לך סכימה שנקבעה באופן ידני המכילה מידע נוסף על מערך הנתונים שלך. על ידי מתן סכימה זו ל-StatisticsGen, TFDV יכול לספק נתונים סטטיסטיים שימושיים יותר בהתבסס על מאפיינים מוצהרים של מערך הנתונים שלך.

בהגדרה זו, תפעיל את StatisticsGen עם סכימה אוצרת שיובאה על ידי ImporterNode בצורה הבאה:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

יצירת סכימה אוצרת

Schema ב-TFX היא מופע של פרוטו TensorFlow Metadata Schema . זה יכול להיות מורכב בפורמט טקסט מאפס. עם זאת, קל יותר להשתמש בסכימה המשוערת שהופקה על ידי SchemaGen כנקודת התחלה. לאחר ביצוע רכיב SchemaGen , הסכימה תמוקם מתחת לשורש הצינור בנתיב הבא:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

כאשר <artifact_id> מייצג מזהה ייחודי עבור גרסה זו של הסכימה ב-MLMD. לאחר מכן ניתן לשנות את פרוטו הסכימה הזה כדי להעביר מידע על מערך הנתונים שלא ניתן להסיק באופן מהימן, מה שיהפוך את הפלט של StatisticsGen לשימושי יותר ואת האימות המבוצע ברכיב ה- ExampleValidator למחמיר יותר.

פרטים נוספים זמינים בהפניה ל-StatisticsGen API .