يقوم مكون خط أنابيب StatisticsGen TFX بإنشاء إحصائيات ميزات حول بيانات التدريب والخدمة ، والتي يمكن استخدامها بواسطة مكونات خطوط الأنابيب الأخرى. يستخدم StatisticsGen Beam للتوسع في مجموعات البيانات الكبيرة.
- يستهلك: مجموعات البيانات التي تم إنشاؤها بواسطة مكون خط أنابيب ExampleGen.
- ينبعث منها: إحصائيات مجموعة البيانات.
StatisticsGen و TensorFlow التحقق من صحة البيانات
StatisticsGen يجعل الاستخدام المكثف لل TensorFlow التحقق من صحة البيانات لتوليد إحصاءات من مجموعة البيانات الخاصة بك.
استخدام مكون StatsGen
عادةً ما يكون من السهل جدًا نشر مكون خط أنابيب StatisticsGen ولا يتطلب سوى القليل من التخصيص. يبدو الرمز النموذجي كما يلي:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
استخدام مكون StatsGen مع مخطط
بالنسبة للتشغيل الأول لخط الأنابيب ، سيتم استخدام ناتج StatisticsGen لاستنتاج مخطط. ومع ذلك ، في عمليات التشغيل اللاحقة ، قد يكون لديك مخطط منظم يدويًا يحتوي على معلومات إضافية حول مجموعة البيانات الخاصة بك. من خلال توفير هذا المخطط إلى StatisticsGen ، يمكن أن يوفر TFDV المزيد من الإحصائيات المفيدة بناءً على الخصائص المعلنة لمجموعة البيانات الخاصة بك.
في هذا الإعداد ، ستستدعي StatisticsGen بمخطط منظم تم استيراده بواسطة ImporterNode مثل هذا:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
إنشاء مخطط منظم
Schema
في TFX هو مثيل TensorFlow الفوقية Schema
بروتو . هذا يمكن أن تتكون في شكل النص من نقطة الصفر. ومع ذلك، فمن السهل أن استخدام مخطط الاستدلال التي تنتجها SchemaGen
كنقطة انطلاق. وبمجرد أن SchemaGen
نفذت عنصر، سوف يكون موجودا في المخطط تحت جذر خط أنابيب في المسار التالي:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
حيث <artifact_id>
يمثل معرف فريد لهذا الإصدار من المخطط في MLMD. هذا بروتو مخطط ومن ثم يمكن تعديلها لنقل المعلومات عن مجموعة البيانات التي لا يمكن الاستدلال موثوق بها، الأمر الذي سيجعل من إخراج StatisticsGen
أكثر فائدة والتحقق من صحة تنفيذها في ExampleValidator
عنصر أكثر صرامة.
تتوفر في مزيد من التفاصيل إشارة API StatisticsGen .