بعضی از اجزای TFX استفاده از یک شرح داده های ورودی خود را به نام یک طرح. طرح یک نمونه از است schema.proto . میتواند انواع دادهها را برای مقادیر ویژگی مشخص کند، اینکه آیا یک ویژگی باید در همه مثالها وجود داشته باشد، محدوده مقادیر مجاز و سایر ویژگیها. یک جزء خط لوله SchemaGen به طور خودکار یک طرحواره را با استنباط انواع، دستهها و محدودهها از دادههای آموزشی ایجاد میکند.
- Consumes: آماری از یک جزء StatisticsGen
- انتشار: پروتو طرحواره داده
در اینجا گزیده ای از یک طرح اولیه است:
...
feature {
name: "age"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
feature {
name: "capital-gain"
value_count {
min: 1
max: 1
}
type: FLOAT
presence {
min_fraction: 1
min_count: 1
}
}
...
کتابخانه های TFX زیر از این طرح استفاده می کنند:
- اعتبارسنجی داده های TensorFlow
- تبدیل TensorFlow
- تحلیل مدل TensorFlow
در یک خط لوله TFX معمولی SchemaGen یک طرح تولید می کند که توسط سایر اجزای خط لوله مصرف می شود. با این حال، طرح تولید خودکار بهترین تلاش است و فقط سعی میکند ویژگیهای اساسی دادهها را استنتاج کند. انتظار می رود که توسعه دهندگان آن را در صورت نیاز بررسی و اصلاح کنند.
طرح اصلاح شده را می توان با استفاده از مؤلفه ImportSchemaGen به خط لوله بازگرداند. مولفه SchemaGen برای تولید طرح اولیه می تواند حذف شود و تمام اجزای پایین دستی می توانند از خروجی ImportSchemaGen استفاده کنند. همچنین توصیه می شود به اضافه کردن ExampleValidator با استفاده از طرح وارد شده به بررسی داده های آموزشی به طور مداوم.
اعتبارسنجی داده SchemaGen و TensorFlow
SchemaGen باعث استفاده گسترده از TensorFlow داده ها اعتبار برای استنتاج یک طرح.
با استفاده از مولفه SchemaGen
برای تولید طرحواره اولیه
یک جزء خط لوله SchemaGen معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به صورت زیر است:
schema_gen = tfx.components.SchemaGen(
statistics=stats_gen.outputs['statistics'])
جزئیات بیشتر در دسترس هستند API مرجع SchemaGen .
برای واردات طرح بازبینی شده
جزء ImportSchemaGen را به خط لوله اضافه کنید تا تعریف طرحواره بررسی شده را وارد خط لوله کنید.
schema_gen = tfx.components.ImportSchemaGen(
schema_file='/some/path/schema.pbtxt')
schema_file
باید مسیر کامل فایل protobuf متن باشد.
جزئیات بیشتر در دسترس هستند API مرجع ImportSchemaGen .