مؤلفه خط لوله StatisticsGen TFX

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

مؤلفه خط لوله StatisticsGen TFX آمار ویژگی‌هایی را هم بر روی داده‌های آموزشی و هم در سرویس‌دهی ایجاد می‌کند که می‌تواند توسط سایر مؤلفه‌های خط لوله استفاده شود. StatisticsGen از Beam برای مقیاس بندی به مجموعه داده های بزرگ استفاده می کند.

  • Consumes: مجموعه داده های ایجاد شده توسط یک جزء ExampleGen Pipeline.
  • انتشار: آمار مجموعه داده.

اعتبارسنجی داده StatisticsGen و TensorFlow

StatisticsGen باعث استفاده گسترده از TensorFlow داده ها اعتبار برای تولید آمار از مجموعه داده خود را.

با استفاده از مولفه StatsGen

یک جزء StatisticsGen خط لوله معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به صورت زیر است:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

استفاده از مؤلفه StatsGen با طرحواره

برای اولین اجرای یک خط لوله، خروجی StatisticsGen برای استنتاج یک طرح واره استفاده خواهد شد. با این حال، در اجراهای بعدی ممکن است طرحی دستی داشته باشید که حاوی اطلاعات اضافی درباره مجموعه داده‌های شما باشد. با ارائه این طرح به StatisticsGen، TFDV می تواند آمار مفیدتری را بر اساس ویژگی های اعلام شده مجموعه داده های شما ارائه دهد.

در این تنظیمات، StatisticsGen را با یک طرح انتخاب شده که توسط ImporterNode وارد شده است، فراخوانی می کنید:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

ایجاد یک طرحواره انتخاب شده

Schema در TFX یک نمونه از TensorFlow فراداده است Schema پروتو . این را می توان در تشکیل قالب متن ، از ابتدا. با این حال، آن را آسان تر است به استفاده از طرح استنباط شده توسط تولید SchemaGen به عنوان یک نقطه شروع است. هنگامی که SchemaGen جزء اعدام کرده است، طرح خواهد شد که در زیر ریشه های خط لوله در مسیر زیر قرار دارد:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

که در آن <artifact_id> نشان دهنده یک ID منحصر به فرد برای این نسخه ای از طرح در MLMD. پس از آن این پروتو طرح می تواند اصلاح شود به برقراری ارتباط اطلاعات در مورد مجموعه داده که می تواند قابل اعتماد نمی شود استنباط کرد، که خروجی خواهد شد StatisticsGen مفید تر و اعتبار در انجام ExampleValidator جزء دقیق تر.

جزئیات بیشتر در دسترس هستند API مرجع StatisticsGen .