SIG TFX-Addons কমিউনিটিতে যোগ দিন এবং TFX কে আরও ভাল করতে সাহায্য করুন! SIG TFX-Addons- এ যোগ দিন

স্ট্যাটিস্টিক্সজেন টিএফএক্স পাইপলাইন উপাদান

স্ট্যাটিস্টিক্সজেন টিএফএক্স পাইপলাইন উপাদান প্রশিক্ষণ এবং পরিবেশন করা উভয় ডেটার উপরে ফিচারের পরিসংখ্যান তৈরি করে, যা অন্যান্য পাইপলাইন উপাদানগুলি ব্যবহার করতে পারে। স্ট্যাটিস্টিকজেন বড় ডেটাসেটগুলিতে স্কেল করতে মরীচি ব্যবহার করে।

  • গ্রাহকরা: একটি উদাহরণজেন পাইপলাইন উপাদান দ্বারা তৈরি ডেটাসেট।
  • অনুকরণসমূহ: ডেটাসেটের পরিসংখ্যান।

পরিসংখ্যান জেন এবং টেনসরফ্লো ডেটা বৈধকরণ

স্ট্যাটিস্টিকসজেন আপনার ডেটাসেট থেকে পরিসংখ্যান তৈরির জন্য টেনসরফ্লো ডেটা বৈধকরণের ব্যাপক ব্যবহার করে।

স্ট্যাটজেন কম্পোনেন্ট ব্যবহার করে

একটি পরিসংখ্যান জিন পাইপলাইন উপাদান সাধারণত মোতায়েন করা খুব সহজ এবং সামান্য কাস্টমাইজেশন প্রয়োজন। টিপিক্যাল কোডটি এর মতো দেখাচ্ছে:

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      name='compute-eval-stats'
      )

একটি স্কিমা সহ স্ট্যাটসজেন উপাদান ব্যবহার করা

পাইপলাইনের প্রথম রানের জন্য, পরিসংখ্যান জেনের আউটপুট কোনও স্কিমা অনুমান করতে ব্যবহৃত হবে। যাইহোক, পরবর্তী রানগুলিতে আপনার হাতে একটি ম্যানুয়ালি কুরেটেড স্কিমা থাকতে পারে যাতে আপনার ডেটা সেট সম্পর্কে অতিরিক্ত তথ্য থাকে। স্ট্যাটিস্টিক্স জেনকে এই স্কিমা সরবরাহ করে, টিএফডিভি আপনার ডেটা সেটের ঘোষিত বৈশিষ্ট্যের ভিত্তিতে আরও দরকারী পরিসংখ্যান সরবরাহ করতে পারে।

এই সেটিংয়ে, আপনি স্ট্যাটিস্টিক্সজেনকে একটি সংশোধিত স্কিমা দিয়ে অনুরোধ করবেন যা কোনও ইমপোর্টার নোডের দ্বারা এই জাতীয়ভাবে আমদানি করা হয়েছে:

user_schema_importer = Importer(
    source_uri=user_schema_dir, # directory containing only schema text proto
    artifact_type=standard_artifacts.Schema).with_id('schema_importer')

compute_eval_stats = StatisticsGen(
      examples=example_gen.outputs['examples'],
      schema=user_schema_importer.outputs['result'],
      name='compute-eval-stats'
      )

একটি কিউরেটেড স্কিমা তৈরি করা হচ্ছে

টিএফএক্সের Schema টেনসরফ্লো মেটাডেটা Schema প্রোটোর একটি উদাহরণ। এটি স্ক্র্যাচ থেকে পাঠ্য বিন্যাসে রচনা করা যেতে পারে। যাইহোক, SchemaGen দ্বারা উত্পাদিত SchemaGen স্কিমাটি একটি প্রাথমিক পয়েন্ট হিসাবে ব্যবহার করা সহজ। একবার SchemaGen উপাদানটি কার্যকর হয়ে গেলে, SchemaGen নীচের পথে পাইপলাইনের মূলের নীচে অবস্থিত হবে:

<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt

যেখানে <artifact_id> এমএলএমডি-তে স্কিমার এই সংস্করণটির জন্য একটি অনন্য আইডি উপস্থাপন করে। এই স্কিমা প্রোটোটি তখন ডেটাসেট সম্পর্কিত তথ্য যোগাযোগের জন্য সংশোধন করা যেতে পারে যা নির্ভরযোগ্যভাবে অনুমান করা যায় না, যা StatisticsGen আউটপুটকে আরও দরকারী করে ExampleValidator এবং ExampleValidator উপাদানটিতে সম্পাদিত ExampleValidator আরও কঠোর করে ExampleValidator

আরও বিশদ স্ট্যাটিস্টিকজেন এপিআই রেফারেন্সে উপলব্ধ