مكون خط أنابيب SchemaGen TFX

بعض مكونات TFX تستخدم وصفا لإدخال البيانات الخاصة بك يسمى المخطط. المخطط هو مثيل schema.proto . يمكنه تحديد أنواع البيانات لقيم المعالم ، وما إذا كان يجب أن تكون الميزة موجودة في جميع الأمثلة ، ونطاقات القيم المسموح بها ، وخصائص أخرى. سينشئ مكون خط أنابيب SchemaGen تلقائيًا مخططًا عن طريق استنتاج الأنواع والفئات والنطاقات من بيانات التدريب.

  • يستهلك: إحصائيات من مكون StatisticsGen
  • ينبعث: مخطط البيانات الأولي

هذا مقتطف من مخطط أولي:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

تستخدم مكتبات TFX التالية المخطط:

  • التحقق من صحة بيانات TensorFlow
  • تحويل TensorFlow
  • تحليل نموذج TensorFlow

في خط أنابيب TFX نموذجي ، ينشئ SchemaGen مخططًا تستهلكه مكونات خط الأنابيب الأخرى. ومع ذلك ، فإن المخطط الذي تم إنشاؤه تلقائيًا هو أفضل جهد ويحاول فقط استنتاج الخصائص الأساسية للبيانات. ومن المتوقع أن يقوم المطورون بمراجعتها وتعديلها حسب الحاجة.

يمكن إعادة المخطط المعدل إلى خط الأنابيب باستخدام مكون ImportSchemaGen. يمكن إزالة مكون SchemaGen لإنشاء المخطط الأولي ويمكن لجميع مكونات المصب استخدام إخراج ImportSchemaGen. ويوصى أيضا لإضافة ExampleValidator باستخدام المخطط المستوردة لفحص بيانات التدريب بشكل مستمر.

التحقق من صحة بيانات SchemaGen و TensorFlow

SchemaGen يجعل الاستخدام المكثف لل TensorFlow التحقق من صحة البيانات لاستنتاج مخطط.

باستخدام مكون SchemaGen

لجيل المخطط الأولي

عادةً ما يكون من السهل جدًا نشر مكون خط أنابيب SchemaGen ويتطلب القليل من التخصيص. يبدو الرمز النموذجي كما يلي:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

تتوفر في مزيد من التفاصيل إشارة API SchemaGen .

لاستيراد المخطط الذي تمت مراجعته

أضف مكون ImportSchemaGen إلى خط الأنابيب لإحضار تعريف المخطط الذي تمت مراجعته في خط الأنابيب.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

و schema_file يجب أن يكون المسار الكامل لملف protobuf النص.

تتوفر في مزيد من التفاصيل إشارة API ImportSchemaGen .