רכיב הצינור של StatisticsGen TFX

רכיב הצינור של StatisticsGen TFX מייצר נתונים סטטיסטיים של תכונות הן על נתוני ההדרכה והן על נתוני ההגשה, אשר יכולים לשמש רכיבי צינור אחרים. StatisticsGen משתמש ב-Beam כדי לשנות את קנה המידה למערכי נתונים גדולים.

  • צורכת: מערכי נתונים שנוצרו על ידי רכיב צינור של ExampleGen.
  • פולטות: סטטיסטיקות מערך נתונים.

אימות נתונים של StatisticsGen ו- TensorFlow

StatisticsGen עושה שימוש נרחב אימות נתונים TensorFlow עבור הפקת הסטטיסטיקה ממאגר הנתונים שלך.

שימוש ברכיב StatsGen

רכיב צינור של StatisticsGen הוא בדרך כלל קל מאוד לפריסה ודורש מעט התאמה אישית. קוד טיפוסי נראה כך:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

שימוש ברכיב StatsGen עם סכימה

עבור ההרצה הראשונה של צינור, הפלט של StatisticsGen ישמש להסקת סכימה. עם זאת, בריצות עוקבות ייתכן שתהיה לך סכימה שנקבעה באופן ידני המכילה מידע נוסף על מערך הנתונים שלך. על ידי מתן סכימה זו ל-StatisticsGen, TFDV יכול לספק נתונים סטטיסטיים שימושיים יותר בהתבסס על מאפיינים מוצהרים של מערך הנתונים שלך.

בהגדרה זו, תפעיל את StatisticsGen עם סכימה אוצרת שיובאה על ידי ImporterNode בצורה הבאה:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

יצירת סכימה אוצרת

Schema ב TFX היא מופע של Metadata TensorFlow Schema פרוטו . זה יכול להיות מורכב ב בפורמט טקסט מאפס. עם זאת, קל יותר להשתמש בסכימה להסיק המיוצר על ידי SchemaGen כנקודת מוצא. לאחר SchemaGen הרכיב בצע, בסכמה תמוקם מתחת לשורש הצינור בנתיב הבא:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

איפה <artifact_id> מייצג מזהה ייחודי עבור גירסה זו של סכימה ב MLMD. פרוטו סכימה זו לאחר מכן ניתן לשנות כדי להעביר מידע על בסיס הנתונים אשר לא ניתן להסיק באופן מהימן, אשר יהפכו את הפלט של StatisticsGen יותר שימושי האימות שבוצעו ExampleValidator רכיב מחמירים יותר.

פרטים נוספים זמינים פניית API StatisticsGen .