مكون خط أنابيب StatisticsGen TFX

تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

يقوم مكون خط أنابيب StatisticsGen TFX بإنشاء إحصائيات ميزات حول بيانات التدريب والخدمة ، والتي يمكن استخدامها بواسطة مكونات خطوط الأنابيب الأخرى. يستخدم StatisticsGen Beam للتوسع في مجموعات البيانات الكبيرة.

  • يستهلك: مجموعات البيانات التي تم إنشاؤها بواسطة مكون خط أنابيب ExampleGen.
  • ينبعث منها: إحصائيات مجموعة البيانات.

StatisticsGen و TensorFlow التحقق من صحة البيانات

StatisticsGen يجعل الاستخدام المكثف لل TensorFlow التحقق من صحة البيانات لتوليد إحصاءات من مجموعة البيانات الخاصة بك.

استخدام مكون StatsGen

عادةً ما يكون من السهل جدًا نشر مكون خط أنابيب StatisticsGen ولا يتطلب سوى القليل من التخصيص. يبدو الرمز النموذجي كما يلي:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

استخدام مكون StatsGen مع مخطط

بالنسبة للتشغيل الأول لخط الأنابيب ، سيتم استخدام ناتج StatisticsGen لاستنتاج مخطط. ومع ذلك ، في عمليات التشغيل اللاحقة ، قد يكون لديك مخطط منظم يدويًا يحتوي على معلومات إضافية حول مجموعة البيانات الخاصة بك. من خلال توفير هذا المخطط إلى StatisticsGen ، يمكن أن يوفر TFDV المزيد من الإحصائيات المفيدة بناءً على الخصائص المعلنة لمجموعة البيانات الخاصة بك.

في هذا الإعداد ، ستستدعي StatisticsGen بمخطط منظم تم استيراده بواسطة ImporterNode مثل هذا:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

إنشاء مخطط منظم

Schema في TFX هو مثيل TensorFlow الفوقية Schema بروتو . هذا يمكن أن تتكون في شكل النص من نقطة الصفر. ومع ذلك، فمن السهل أن استخدام مخطط الاستدلال التي تنتجها SchemaGen كنقطة انطلاق. وبمجرد أن SchemaGen نفذت عنصر، سوف يكون موجودا في المخطط تحت جذر خط أنابيب في المسار التالي:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

حيث <artifact_id> يمثل معرف فريد لهذا الإصدار من المخطط في MLMD. هذا بروتو مخطط ومن ثم يمكن تعديلها لنقل المعلومات عن مجموعة البيانات التي لا يمكن الاستدلال موثوق بها، الأمر الذي سيجعل من إخراج StatisticsGen أكثر فائدة والتحقق من صحة تنفيذها في ExampleValidator عنصر أكثر صرامة.

تتوفر في مزيد من التفاصيل إشارة API StatisticsGen .