StatisticsGen TFX পাইপলাইন উপাদান প্রশিক্ষণ এবং পরিবেশন ডেটা উভয়ের উপর বৈশিষ্ট্যের পরিসংখ্যান তৈরি করে, যা অন্যান্য পাইপলাইন উপাদান দ্বারা ব্যবহার করা যেতে পারে। StatisticsGen বড় ডেটাসেটে স্কেল করার জন্য Beam ব্যবহার করে।
- ব্যবহার করে: একটি ExampleGen পাইপলাইন উপাদান দ্বারা তৈরি ডেটাসেট।
- নির্গত: ডেটাসেট পরিসংখ্যান।
StatisticsGen এবং TensorFlow ডেটা যাচাইকরণ
StatisticsGen ব্যাপক ব্যবহার TensorFlow ডেটা ভ্যালিডেশন আপনার ডেটা সেটটি থেকে পরিসংখ্যান জেনারেট করার জন্য।
StatsGen উপাদান ব্যবহার করে
একটি StatisticsGen পাইপলাইন উপাদান সাধারণত স্থাপন করা খুব সহজ এবং সামান্য কাস্টমাইজেশন প্রয়োজন। সাধারণ কোড এই মত দেখায়:
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
name='compute-eval-stats'
)
একটি স্কিমার সাথে StatsGen উপাদান ব্যবহার করা
একটি পাইপলাইনের প্রথম রানের জন্য, StatisticsGen-এর আউটপুট একটি স্কিমা অনুমান করতে ব্যবহার করা হবে। যাইহোক, পরবর্তী রানে আপনার কাছে একটি ম্যানুয়ালি কিউরেটেড স্কিমা থাকতে পারে যাতে আপনার ডেটা সেট সম্পর্কে অতিরিক্ত তথ্য থাকে। StatisticsGen-এ এই স্কিমা প্রদান করে, TFDV আপনার ডেটা সেটের ঘোষিত বৈশিষ্ট্যের উপর ভিত্তি করে আরও দরকারী পরিসংখ্যান প্রদান করতে পারে।
এই সেটিং-এ, আপনি StatisticsGen-কে একটি কিউরেটেড স্কিমা সহ একটি ImporterNode দ্বারা আমদানি করা হয়েছে:
user_schema_importer = Importer(
source_uri=user_schema_dir, # directory containing only schema text proto
artifact_type=standard_artifacts.Schema).with_id('schema_importer')
compute_eval_stats = StatisticsGen(
examples=example_gen.outputs['examples'],
schema=user_schema_importer.outputs['result'],
name='compute-eval-stats'
)
একটি কিউরেটেড স্কিমা তৈরি করা
Schema
TFX মধ্যে TensorFlow মেটাডেটার একটি দৃষ্টান্ত হল Schema
প্রোটো । এই গঠিত হতে পারে টেক্সট বিন্যাসে গোড়া থেকে। যাইহোক, এটা দ্বারা উত্পাদিত অনুমিত স্কিমা ব্যবহার করা অনেক সহজ SchemaGen
একটি আদ্যস্থল হিসাবে। একবার SchemaGen
উপাদান মৃত্যুদন্ড কার্যকর করেনি, স্কিমা নিম্নলিখিত পথে পাইপলাইন রুট অধীনে অবস্থিত হবে:
<pipeline_root>/SchemaGen/schema/<artifact_id>/schema.pbtxt
কোথায় <artifact_id>
MLMD এ স্কিমা এর এই সংস্করণের জন্য একটি অনন্য আইডি প্রতিনিধিত্ব করে। এই স্কিমা প্রোটো তারপর ডেটা সেটটি যা নির্ভরযোগ্যভাবে অনুমিত করা যাবে না, যা আউটপুট করতে হবে সম্পর্কে তথ্য যোগাযোগ করতে পরিবর্তন করা যাবে StatisticsGen
আপনার জন্য দরকারী এবং বৈধতা সঞ্চালিত ExampleValidator
উপাদান আরো কঠোর।
আরো বিস্তারিত পাওয়া যায় StatisticsGen এপিআই রেফারেন্স ।