רכיב SchemaGen TFX Pipeline

רכיבים TFX מסוימים משתמשים בתיאור נתוני הקלט שלך נקרא סכמה. הסכימה היא מופע של schema.proto . זה יכול לציין סוגי נתונים עבור ערכי תכונה, האם תכונה חייבת להיות נוכחת בכל הדוגמאות, טווחי ערכים מותרים ומאפיינים אחרים. רכיב צינור SchemaGen יפיק אוטומטית סכימה על ידי הסקת סוגים, קטגוריות וטווחים מנתוני ההדרכה.

  • צורכת: סטטיסטיקה ממרכיב של StatisticsGen
  • פולטות: פרוטו של סכימת נתונים

להלן קטע מתוך פרוטו של סכימה:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

ספריות ה-TFX הבאות משתמשות בסכימה:

  • אימות נתונים של TensorFlow
  • טרנספורמציה של TensorFlow
  • ניתוח מודל TensorFlow

בצינור TFX טיפוסי SchemaGen מייצר סכמה, הנצרכת על ידי שאר רכיבי הצינור. עם זאת, הסכימה המופקת אוטומטית היא המאמץ הטוב ביותר והיא רק מנסה להסיק מאפיינים בסיסיים של הנתונים. צפוי שהמפתחים יבדקו וישנו אותו לפי הצורך.

ניתן להחזיר את הסכימה ששונתה לצינור באמצעות רכיב ImportSchemaGen. ניתן להסיר את רכיב SchemaGen ליצירת הסכימה הראשונית וכל הרכיבים במורד הזרם יכולים להשתמש בפלט של ImportSchemaGen. מומלץ גם להוסיף ExampleValidator באמצעות הסכימה המיובאת לבחון את נתון אימון ברציפות.

אימות נתונים של SchemaGen ו- TensorFlow

SchemaGen עושה שימוש נרחב אימות נתונים TensorFlow כדי להסיק סכימה.

שימוש ברכיב SchemaGen

ליצירת הסכימה הראשונית

רכיב צינור SchemaGen הוא בדרך כלל קל מאוד לפריסה ודורש מעט התאמה אישית. קוד טיפוסי נראה כך:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

פרטים נוספים זמינים פניית API SchemaGen .

לייבוא ​​הסכימה שנבדקה

הוסף את רכיב ImportSchemaGen לצינור כדי להביא את הגדרת הסכימה שנבדקה לתוך הצינור.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file צריך להיות נתיב מלא לקובץ Protobuf הטקסט.

פרטים נוספים זמינים פניית API ImportSchemaGen .