مؤلفه خط لوله SchemaGen TFX

بعضی از اجزای TFX استفاده از یک شرح داده های ورودی خود را به نام یک طرح. طرح یک نمونه از است schema.proto . می‌تواند انواع داده‌ها را برای مقادیر ویژگی مشخص کند، اینکه آیا یک ویژگی باید در همه مثال‌ها وجود داشته باشد، محدوده مقادیر مجاز و سایر ویژگی‌ها. یک جزء خط لوله SchemaGen به طور خودکار یک طرحواره را با استنباط انواع، دسته‌ها و محدوده‌ها از داده‌های آموزشی ایجاد می‌کند.

  • Consumes: آماری از یک جزء StatisticsGen
  • انتشار: پروتو طرحواره داده

در اینجا گزیده ای از یک طرح اولیه است:

...
feature {
  name: "age"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
feature {
  name: "capital-gain"
  value_count {
    min: 1
    max: 1
  }
  type: FLOAT
  presence {
    min_fraction: 1
    min_count: 1
  }
}
...

کتابخانه های TFX زیر از این طرح استفاده می کنند:

  • اعتبارسنجی داده های TensorFlow
  • تبدیل TensorFlow
  • تحلیل مدل TensorFlow

در یک خط لوله TFX معمولی SchemaGen یک طرح تولید می کند که توسط سایر اجزای خط لوله مصرف می شود. با این حال، طرح تولید خودکار بهترین تلاش است و فقط سعی می‌کند ویژگی‌های اساسی داده‌ها را استنتاج کند. انتظار می رود که توسعه دهندگان آن را در صورت نیاز بررسی و اصلاح کنند.

طرح اصلاح شده را می توان با استفاده از مؤلفه ImportSchemaGen به خط لوله بازگرداند. مولفه SchemaGen برای تولید طرح اولیه می تواند حذف شود و تمام اجزای پایین دستی می توانند از خروجی ImportSchemaGen استفاده کنند. همچنین توصیه می شود به اضافه کردن ExampleValidator با استفاده از طرح وارد شده به بررسی داده های آموزشی به طور مداوم.

اعتبارسنجی داده SchemaGen و TensorFlow

SchemaGen باعث استفاده گسترده از TensorFlow داده ها اعتبار برای استنتاج یک طرح.

با استفاده از مولفه SchemaGen

برای تولید طرحواره اولیه

یک جزء خط لوله SchemaGen معمولاً بسیار آسان است و نیاز به سفارشی سازی کمی دارد. کد معمولی به صورت زیر است:

schema_gen = tfx.components.SchemaGen(
    statistics=stats_gen.outputs['statistics'])

جزئیات بیشتر در دسترس هستند API مرجع SchemaGen .

برای واردات طرح بازبینی شده

جزء ImportSchemaGen را به خط لوله اضافه کنید تا تعریف طرحواره بررسی شده را وارد خط لوله کنید.

schema_gen = tfx.components.ImportSchemaGen(
    schema_file='/some/path/schema.pbtxt')

schema_file باید مسیر کامل فایل protobuf متن باشد.

جزئیات بیشتر در دسترس هستند API مرجع ImportSchemaGen .