مكون خط أنابيب StatisticsGen TFX

يقوم مكون خط الأنابيب StatisticsGen TFX بإنشاء إحصائيات الميزات حول كل من بيانات التدريب والخدمة، والتي يمكن استخدامها بواسطة مكونات خط الأنابيب الأخرى. يستخدم موقع StatisticsGen Beam لتوسيع نطاق مجموعات البيانات الكبيرة.

  • يستهلك: مجموعات البيانات التي تم إنشاؤها بواسطة مكون خط أنابيب exampleGen.
  • الانبعاث: إحصائيات مجموعة البيانات.

التحقق من صحة بيانات StatisticsGen وTensorFlow

يستخدم موقع StatisticsGen على نطاق واسع تقنية TensorFlow Data Validation لإنشاء إحصائيات من مجموعة البيانات الخاصة بك.

باستخدام مكون StatsGen

عادةً ما يكون نشر مكون خط أنابيب StatisticsGen سهلاً للغاية ويتطلب القليل من التخصيص. يبدو الرمز النموذجي كما يلي:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

استخدام مكون StatsGen مع المخطط

بالنسبة للتشغيل الأول لخط الأنابيب، سيتم استخدام مخرجات StatisticsGen لاستنتاج المخطط. ومع ذلك، في عمليات التشغيل اللاحقة، قد يكون لديك مخطط منسق يدويًا يحتوي على معلومات إضافية حول مجموعة البيانات الخاصة بك. من خلال توفير هذا المخطط إلى StatisticsGen، يمكن لـ TFDV توفير إحصائيات أكثر فائدة استنادًا إلى الخصائص المعلنة لمجموعة البيانات الخاصة بك.

في هذا الإعداد، ستستدعي StatisticsGen بمخطط منسق تم استيراده بواسطة ImporterNode مثل هذا:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

إنشاء مخطط منسق

يعد Schema في TFX مثالًا Schema البيانات الوصفية TensorFlow. يمكن كتابة هذا بتنسيق نص من البداية. ومع ذلك، فمن الأسهل استخدام المخطط المستنتج الذي تنتجه SchemaGen كنقطة بداية. بمجرد تنفيذ مكون SchemaGen ، سيتم وضع المخطط أسفل جذر خط الأنابيب في المسار التالي:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

حيث يمثل <artifact_id> معرفًا فريدًا لهذا الإصدار من المخطط في MLMD. يمكن بعد ذلك تعديل نموذج المخطط هذا لتوصيل معلومات حول مجموعة البيانات التي لا يمكن استنتاجها بشكل موثوق، مما سيجعل مخرجات StatisticsGen أكثر فائدة والتحقق من الصحة الذي يتم إجراؤه في مكون ExampleValidator أكثر صرامة.

تتوفر المزيد من التفاصيل في مرجع StatisticsGen API .