ترجمت واجهة Cloud Translation API‏ هذه الصفحة.
Switch to English

مكون خط أنابيب StatisticsGen TFX

يقوم مكون خط أنابيب StatisticsGen TFX بإنشاء إحصائيات ميزات حول بيانات التدريب والخدمة ، والتي يمكن استخدامها بواسطة مكونات خطوط الأنابيب الأخرى. يستخدم StatisticsGen Beam للتوسع في مجموعات البيانات الكبيرة.

  • يستهلك: مجموعات البيانات التي تم إنشاؤها بواسطة مكون خط أنابيب ExampleGen.
  • ينبعث: إحصائيات مجموعة البيانات.

StatisticsGen و TensorFlow التحقق من صحة البيانات

يستخدم StatisticsGen بشكل مكثف التحقق من صحة بيانات TensorFlow لإنشاء إحصائيات من مجموعة البيانات الخاصة بك.

استخدام مكون StatsGen

عادةً ما يكون من السهل جدًا نشر مكون خط أنابيب StatisticsGen ولا يتطلب سوى القليل من التخصيص. يبدو الرمز النموذجي كما يلي:

from tfx import components

...

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

استخدام مكون StatsGen مع مخطط

بالنسبة للتشغيل الأول لخط الأنابيب ، سيتم استخدام إخراج StatisticsGen لاستنتاج مخطط. ومع ذلك ، في عمليات التشغيل اللاحقة ، قد يكون لديك مخطط منظم يدويًا يحتوي على معلومات إضافية حول مجموعة البيانات الخاصة بك. من خلال توفير هذا المخطط إلى StatisticsGen ، يمكن أن يوفر TFDV إحصائيات أكثر فائدة بناءً على الخصائص المعلنة لمجموعة البيانات الخاصة بك.

في هذا الإعداد ، سوف تستدعي StatisticsGen بمخطط منظم تم استيراده بواسطة ImporterNode مثل هذا:

from tfx import components
from tfx.types import standard_artifacts

...

user_schema_importer = components.ImporterNode(
    instance_name='import_user_schema',
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema)

compute_eval_stats = components.StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

إنشاء مخطط منظم

Schema في TFX هو مثيل لـ TensorFlow Metadata Schema proto . يمكن أن يتألف هذا في شكل نصي من البداية. ومع ذلك ، فمن الأسهل استخدام المخطط المستنتج الذي تنتجه SchemaGen كنقطة بداية. بمجرد SchemaGen مكون SchemaGen ، سيتم وضع المخطط أسفل جذر خط الأنابيب في المسار التالي:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

حيث يمثل <artifact_id> معرّفًا فريدًا لهذا الإصدار من المخطط في MLMD. يمكن بعد ذلك تعديل هذا المخطط الأولي لإيصال معلومات حول مجموعة البيانات التي لا يمكن استنتاجها بشكل موثوق ، مما سيجعل إخراج StatisticsGen أكثر فائدة والتحقق الذي يتم إجراؤه في مكون ExampleValidator أكثر صرامة.