مؤلفه خط لوله StatisticsGen TFX آمار ویژگیهایی را هم بر روی دادههای آموزشی و هم در سرویسدهی ایجاد میکند که میتواند توسط سایر مؤلفههای خط لوله استفاده شود. StatisticsGen از Beam برای مقیاس بندی به مجموعه داده های بزرگ استفاده می کند.
- Consumes: مجموعه داده های ایجاد شده توسط یک جزء ExampleGen Pipeline.
- انتشار: آمار مجموعه داده.
اعتبارسنجی داده StatisticsGen و TensorFlow
StatisticsGen باعث استفاده گسترده از TensorFlow داده ها اعتبار برای تولید آمار از مجموعه داده خود را.
با استفاده از مولفه StatsGen
یک جزء StatisticsGen خط لوله معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به صورت زیر است:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
استفاده از مؤلفه StatsGen با طرحواره
برای اولین اجرای یک خط لوله، خروجی StatisticsGen برای استنتاج یک طرح واره استفاده خواهد شد. با این حال، در اجراهای بعدی ممکن است طرحی دستی داشته باشید که حاوی اطلاعات اضافی درباره مجموعه دادههای شما باشد. با ارائه این طرح به StatisticsGen، TFDV می تواند آمار مفیدتری را بر اساس ویژگی های اعلام شده مجموعه داده های شما ارائه دهد.
در این تنظیمات، StatisticsGen را با یک طرح انتخاب شده که توسط ImporterNode وارد شده است، فراخوانی می کنید:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
ایجاد یک طرحواره انتخاب شده
Schema
در TFX یک نمونه از TensorFlow فراداده است Schema
پروتو . این را می توان در تشکیل قالب متن ، از ابتدا. با این حال، آن را آسان تر است به استفاده از طرح استنباط شده توسط تولید SchemaGen
به عنوان یک نقطه شروع است. هنگامی که SchemaGen
جزء اعدام کرده است، طرح خواهد شد که در زیر ریشه های خط لوله در مسیر زیر قرار دارد:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
که در آن <artifact_id>
نشان دهنده یک ID منحصر به فرد برای این نسخه ای از طرح در MLMD. پس از آن این پروتو طرح می تواند اصلاح شود به برقراری ارتباط اطلاعات در مورد مجموعه داده که می تواند قابل اعتماد نمی شود استنباط کرد، که خروجی خواهد شد StatisticsGen
مفید تر و اعتبار در انجام ExampleValidator
جزء دقیق تر.
جزئیات بیشتر در دسترس هستند API مرجع StatisticsGen .