সাইন টিএফএক্স-অ্যাডনস সম্প্রদায়টিতে যোগদান করুন এবং টিএফএক্স আরও উন্নত করতে সহায়তা করুন!
This page was translated by the Cloud Translation API.
Switch to English

টেনসরফ্লো ডেটা বৈধকরণ: আপনার ডেটা পরীক্ষা করা এবং বিশ্লেষণ করা

আপনার ডেটা একবার টিএফএক্স পাইপলাইনে পরে গেলে, আপনি এটি বিশ্লেষণ এবং রূপান্তর করতে টিএফএক্স উপাদান ব্যবহার করতে পারেন। কোনও মডেল প্রশিক্ষণের আগে আপনি এই সরঞ্জামগুলি ব্যবহার করতে পারেন।

আপনার ডেটা বিশ্লেষণ এবং রূপান্তর করার অনেকগুলি কারণ রয়েছে:

  • আপনার ডেটাতে সমস্যাগুলি খুঁজে পেতে। সাধারণ সমস্যাগুলির মধ্যে রয়েছে:
    • নিখোঁজ ডেটা, যেমন খালি মান সহ বৈশিষ্ট্য।
    • লেবেলগুলিকে বৈশিষ্ট্য হিসাবে বিবেচনা করা হয়েছে, যাতে প্রশিক্ষণ চলাকালীন আপনার মডেলটি সঠিক উত্তরটিতে উঁকি দেয়।
    • আপনার প্রত্যাশার সীমার বাইরে মান সহ বৈশিষ্ট্য।
    • ডেটা অসাধারণতা।
  • আরও কার্যকর বৈশিষ্ট্য সেট ইঞ্জিনিয়ার। উদাহরণস্বরূপ, আপনি সনাক্ত করতে পারেন:
    • বিশেষত তথ্যমূলক বৈশিষ্ট্য।
    • অপ্রয়োজনীয় বৈশিষ্ট্য।
    • এমন বৈশিষ্ট্য যা স্কেলে এত বিস্তৃত হয় যে তারা শিখতে ধীর করতে পারে।
    • সামান্য বা কোনও অনন্য ভবিষ্যদ্বাণীমূলক তথ্য সহ বৈশিষ্ট্যগুলি।

টিএফএক্স সরঞ্জামগুলি উভয়ই ডেটা বাগগুলি খুঁজে পেতে এবং বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ে সহায়তা করতে পারে।

টেনসরফ্লো ডেটা বৈধকরণ

ওভারভিউ

টেনসরফ্লো ডেটা যাচাইকরণ ডেটা প্রশিক্ষণ এবং পরিবেশনায় ব্যতিক্রমগুলি সনাক্ত করে এবং স্বয়ংক্রিয়ভাবে ডেটা পরীক্ষা করে একটি স্কিমা তৈরি করতে পারে। উপাদানটিতে ডেটাতে বিভিন্ন শ্রেণীর ব্যতিক্রমতা সনাক্ত করতে কনফিগার করা যেতে পারে। এটা হতে পারে

  1. ব্যবহারকারীর প্রত্যাশাগুলি সংশোধন করে এমন একটি স্কিমাটির সাথে ডেটা পরিসংখ্যান তুলনা করে বৈধতা যাচাই করুন।
  2. প্রশিক্ষণ এবং ডেটা সরবরাহের উদাহরণগুলির সাথে তুলনা করে প্রশিক্ষণ-পরিবেশনকারী স্কিউ সনাক্ত করুন।
  3. একটি ধারাবাহিক ডেটা দেখে ডেটা ড্রিফ্ট সনাক্ত করুন।

আমরা এই কার্যকারিতা প্রতিটি স্বতন্ত্র নথি:

স্কিমা ভিত্তিক উদাহরণ বৈধতা

টেনসরফ্লো ডেটা যাচাইকরণ কোনও স্কিমার সাথে ডেটা পরিসংখ্যান তুলনা করে ইনপুট ডেটাতে যে কোনও অসঙ্গতি সনাক্ত করে। স্কিমাটি এমন বৈশিষ্ট্য কোড করে দেয় যা ইনপুট ডেটা সন্তুষ্ট করবে বলে আশা করা হয় যেমন ডেটা ধরণের বা শ্রেণিবদ্ধ মান হিসাবে এবং ব্যবহারকারী পরিবর্তিত বা প্রতিস্থাপন করতে পারে।

উন্নত স্কিমা বৈশিষ্ট্য

এই বিভাগে আরও উন্নত স্কিমা কনফিগারেশন রয়েছে যা বিশেষ সেটআপগুলিতে সহায়তা করতে পারে।

বিরল বৈশিষ্ট্য

উদাহরণগুলিতে অ্যাওয়ার্ড বৈশিষ্ট্যগুলি এনকোডিং সাধারণত একাধিক বৈশিষ্ট্য উপস্থাপন করে যা সমস্ত উদাহরণের জন্য একই রকম ভারসাম্য আশা করে। উদাহরণস্বরূপ বিরল বৈশিষ্ট্য:


WeightedCategories = [('CategoryA', 0.3), ('CategoryX', 0.7)]
সূচক এবং মানের জন্য পৃথক বৈশিষ্ট্যগুলি ব্যবহার করে এনকোড করা হবে:

WeightedCategoriesIndex = ['CategoryA', 'CategoryX']
WeightedCategoriesValue = [0.3, 0.7]
এই বিধিনিষেধের সাথে যে সূচকটির ভারসাম্যতা এবং মান বৈশিষ্ট্যটি সমস্ত উদাহরণের সাথে মেলে। এই সীমাবদ্ধতাটি স্পার্স_ফিজার:

sparse_feature {
  name: 'WeightedCategories'
  index_feature { name: 'WeightedCategoriesIndex' }
  value_feature { name: 'WeightedCategoriesValue' }
}
সংজ্ঞায়িত করে স্কিমে স্পষ্ট করে তৈরি করা যেতে পারে

স্পার্স বৈশিষ্ট্য সংজ্ঞাটির জন্য এক বা একাধিক সূচক এবং একটি মান বৈশিষ্ট্য প্রয়োজন যা স্কিমায় বিদ্যমান বৈশিষ্ট্যগুলিকে উল্লেখ করে। স্পষ্টভাবে স্পার্স বৈশিষ্ট্যগুলি সংজ্ঞায়িত করা টিএফডিভি সক্ষম করে যাচাই করে যে সমস্ত উল্লিখিত বৈশিষ্ট্যের ভ্যালেন্সির সাথে মিল রয়েছে।

কিছু ব্যবহারের ক্ষেত্রে বৈশিষ্ট্যগুলির মধ্যে অনুরূপ ভারসাম্যতা বিধিনিষেধ প্রবর্তন করে তবে অল্প অল্প বৈশিষ্ট্য অগত্যা এনকোড করে না। বিরল বৈশিষ্ট্য ব্যবহার করা আপনাকে অবরুদ্ধ করা উচিত, তবে এটি আদর্শ নয়।

স্কিমা এনভায়রনমেন্টস

ডিফল্ট বৈধতা দ্বারা ধরে নেওয়া হয় যে পাইপলাইনের সমস্ত উদাহরণ একক স্কিমা মেনে চলে। কিছু ক্ষেত্রে সামান্য স্কিমা তারতম্যগুলি প্রবর্তন করা প্রয়োজন, উদাহরণস্বরূপ প্রশিক্ষণের সময় লেবেল হিসাবে ব্যবহৃত বৈশিষ্ট্যগুলি প্রয়োজনীয় (এবং এটি বৈধ হওয়া উচিত) তবে পরিবেশনের সময় অনুপস্থিত। এনভায়রনমেন্ট বিশেষ করে এই ধরনের প্রয়োজনীয়তা প্রকাশ করার ব্যবহার করা যেতে পারে default_environment() , in_environment() , not_in_environment()

উদাহরণস্বরূপ, ধরুন প্রশিক্ষণের জন্য 'LABEL' নামের একটি বৈশিষ্ট্য প্রয়োজন তবে এটি পরিষেবা দেওয়া থেকে অনুপস্থিত বলে আশা করা যায়। এটি দ্বারা প্রকাশ করা যেতে পারে:

  • স্কিমায় দুটি স্বতন্ত্র পরিবেশ নির্ধারণ করুন: ["সার্ভিং", "প্রশিক্ষণ"] এবং 'লেবেল' কেবল পরিবেশ "প্রশিক্ষণ" এর সাথে যুক্ত করুন।
  • পরিবেশ "প্রশিক্ষণ" এবং পরিবেশের সাথে পরিবেশিত ডেটা পরিবেশ "প্রশিক্ষণ" এর সাথে প্রশিক্ষণের ডেটা সংযুক্ত করুন।
স্কিমা জেনারেশন

ইনপুট ডেটা স্কিমা TensorFlow একটি দৃষ্টান্ত হিসাবে নির্দিষ্ট করা স্কিমা

স্ক্র্যাচ থেকে ম্যানুয়ালি স্কিমা তৈরির পরিবর্তে একজন বিকাশকারী টেনসরফ্লো ডেটা বৈধকরণের স্বয়ংক্রিয় স্কিমা নির্মাণের উপর নির্ভর করতে পারেন। বিশেষত, টেনসরফ্লো ডেটা বৈধকরণ পাইপলাইনে উপলব্ধ প্রশিক্ষণের ডেটা গণনার পরিসংখ্যানের ভিত্তিতে স্বয়ংক্রিয়ভাবে একটি প্রাথমিক স্কিমা তৈরি করে। ব্যবহারকারীরা কেবল এই স্বয়ংক্রিয় জেনারেটেড স্কিমা পর্যালোচনা করতে পারেন, এটি প্রয়োজনীয় হিসাবে এটি সংশোধন করতে পারেন, এটি একটি সংস্করণ নিয়ন্ত্রণ ব্যবস্থাতে পরীক্ষা করতে পারেন এবং আরও বৈধতার জন্য এটি পাইপলাইনে স্পষ্টভাবে চাপতে পারেন।

টিএফডিভিতে স্বয়ংক্রিয়ভাবে স্কিমা উত্পন্ন করতে infer_schema() অন্তর্ভুক্ত। উদাহরণ স্বরূপ:

schema = tfdv.infer_schema(statistics=train_stats)
tfdv.display_schema(schema=schema)

এটি নিম্নলিখিত নিয়মের ভিত্তিতে একটি স্বয়ংক্রিয় স্কিমা উত্সাহকে ট্রিগার করে:

  • যদি কোনও স্কিমা ইতিমধ্যে স্বয়ংক্রিয়ভাবে উত্পাদিত হয়ে থাকে তবে তা সে হিসাবে ব্যবহৃত হয়।

  • অন্যথায়, টেনসরফ্লো ডেটা বৈধকরণ উপলব্ধ ডেটা পরিসংখ্যান পরীক্ষা করে এবং ডেটা জন্য একটি উপযুক্ত স্কিমা গণনা করে।

দ্রষ্টব্য: স্বয়ংক্রিয়ভাবে উত্পাদিত স্কিমা সর্বশ্রেষ্ঠ প্রচেষ্টা এবং কেবলমাত্র ডেটার প্রাথমিক বৈশিষ্ট্যগুলি অনুমান করার চেষ্টা করে। আশা করা যায় যে ব্যবহারকারীরা এটি পর্যালোচনা করে এবং প্রয়োজনীয় হিসাবে এটি সংশোধন করে।

প্রশিক্ষণ-পরিবেশন স্কিউ সনাক্তকরণ

ওভারভিউ

টেনসরফ্লো ডেটা বৈধকরণ প্রশিক্ষণ এবং পরিবেশন করা ডেটার মধ্যে বিতরণের স্কিউ সনাক্ত করতে পারে। প্রশিক্ষণ ডেটার জন্য বৈশিষ্ট্য মানগুলির বিতরণ যখন ডেটা পরিবেশন করা থেকে উল্লেখযোগ্যভাবে পৃথক হয় তখন বিতরণ স্কিউ হয়। বিতরণ স্কিউর মূল কারণগুলির মধ্যে একটি হ'ল কাঙ্ক্ষিত কর্পাসে প্রাথমিক ডেটার অভাব কাটিয়ে উঠতে প্রশিক্ষণের জন্য ডেটা জেনারেশনকে সম্পূর্ণ আলাদা কর্পস ব্যবহার করা। অন্য কারণ হ'ল একটি ত্রুটিপূর্ণ নমুনা ব্যবস্থা যা প্রশিক্ষণ দেওয়ার জন্য কেবল পরিবেশনকারী ডেটার একটি নমুনা বেছে নেয়।

উদাহরণ পরিস্থিতি

প্রশিক্ষণ-সরবরাহকারী স্কিউ সনাক্তকরণ কনফিগার করার সম্পর্কিত তথ্যের জন্য টেনসরফ্লো ডেটা বৈধকরণ শুরু করুন গাইড দেখুন

বামন সনাক্তকরণ

ধারাবাহিক স্প্যান্সের ডেটা (যেমন, স্প্যান এন এবং স্প্যান এন + 1 এর মধ্যে), যেমন ট্রেনিং ডেটার বিভিন্ন দিনের মাঝে মধ্যে ড্রাইফ্ট সনাক্তকরণ সমর্থিত supported আমরা শ্রেণিবদ্ধ বৈশিষ্ট্যগুলির জন্য এল-ইনফিনিটি দূরত্ব এবং সংখ্যাগত বৈশিষ্ট্যগুলির জন্য আনুমানিক জেনসেন-শ্যানন ডাইভারজেন্সের দিক দিয়ে প্রবাহকে প্রকাশ করি। আপনি প্রান্তিক দূরত্ব নির্ধারণ করতে পারেন যাতে বামন গ্রহণযোগ্যতার চেয়ে বেশি হলে আপনি সতর্কতা গ্রহণ করতে পারেন। সঠিক দূরত্ব নির্ধারণ করা সাধারণত একটি পুনরাবৃত্তি প্রক্রিয়া যা ডোমেন জ্ঞান এবং পরীক্ষার প্রয়োজন হয়।

বামন সনাক্তকরণ কনফিগার করার তথ্যের জন্য টেনসরফ্লো ডেটা বৈধকরণ শুরু করুন গাইড দেখুন

আপনার ডেটা পরীক্ষা করতে ভিজুয়ালাইজেশন ব্যবহার করা

টেনসরফ্লো ডেটা বৈধকরণ বৈশিষ্ট্য মানগুলির বিতরণটি কল্পনা করার জন্য সরঞ্জাম সরবরাহ করে। ব্যবহার করে একটি Jupyter নোটবুক এই ডিস্ট্রিবিউশন পরীক্ষা করার দ্বারা আরও বৈশিষ্ট্য আপনি ডাটা সঙ্গে সাধারণ সমস্যার ধরতে পারে।

ফিচারের পরিসংখ্যান

সন্দেহজনক বিতরণ সনাক্তকরণ

বৈশিষ্ট্য মানগুলির সন্দেহজনক বন্টন সন্ধান করতে আপনি ফেসবুকে ওভারভিউ প্রদর্শন ব্যবহার করে আপনার ডেটাতে সাধারণ বাগগুলি সনাক্ত করতে পারেন।

ভারসাম্যহীন ডেটা

ভারসাম্যহীন বৈশিষ্ট্য এমন একটি বৈশিষ্ট্য যার জন্য একটি মান প্রাধান্য দেয়। ভারসাম্যহীন বৈশিষ্ট্যগুলি স্বাভাবিকভাবেই ঘটতে পারে তবে কোনও বৈশিষ্ট্যের সর্বদা একই মান থাকলে আপনার কাছে ডেটা বাগ থাকতে পারে। কোনও মুখের ওভারভিউতে ভারসাম্যহীন বৈশিষ্ট্যগুলি সনাক্ত করতে, "সাজান বাই" ড্রপডাউন থেকে "অ-অভিন্নতা" চয়ন করুন uniform

সর্বাধিক ভারসাম্যহীন বৈশিষ্ট্য প্রতিটি বৈশিষ্ট্য-ধরণের তালিকার শীর্ষে তালিকাভুক্ত করা হবে। উদাহরণস্বরূপ, নীচের স্ক্রিনশটটি এমন একটি বৈশিষ্ট্য দেখায় যা সমস্ত শূন্য, এবং একটি দ্বিতীয় যা অত্যন্ত ভারসাম্যহীন, "সাংখ্যিক বৈশিষ্ট্য" তালিকার শীর্ষে রয়েছে:

ভারসাম্যহীন ডেটা ভিজ্যুয়ালাইজেশন

অভিন্ন বিতরণ করা ডেটা

অভিন্ন বিতরণ করা বৈশিষ্ট্যটি হ'ল এর জন্য সমস্ত সম্ভাব্য মান একই ফ্রিকোয়েন্সিটির কাছাকাছি উপস্থিত হয়। ভারসাম্যহীন ডেটার মতোই, এই বিতরণটি প্রাকৃতিকভাবে ঘটতে পারে তবে ডেটা বাগ দ্বারা উত্পাদিতও হতে পারে।

কোনও মুখের ওভারভিউতে অভিন্ন বিতরণ বৈশিষ্ট্যগুলি সনাক্ত করতে, "সাজান অনুসারে" ড্রপডাউন থেকে "অ-অভিন্নতা" চয়ন করুন এবং "বিপরীত ক্রম" চেকবক্সটি চেক করুন:

অভিন্ন ডেটা হিস্টোগ্রাম

স্ট্রিং ডেটা যদি 20 বা তার চেয়ে কম স্বতন্ত্র মান থাকে তবে বার চার্ট ব্যবহার করে এবং 20 টিরও বেশি অনন্য মান থাকলে সংযোজনমূলক বিতরণ গ্রাফ হিসাবে প্রতিনিধিত্ব করা হয়। সুতরাং স্ট্রিং ডেটার জন্য, অভিন্ন বিতরণ উপরের মত ফ্ল্যাট বার গ্রাফ বা নীচের মত সরল রেখার মতো উপস্থিত হতে পারে:

লাইন গ্রাফ: ইউনিফর্ম ডেটার संचयी বিতরণ

বাগগুলি যা অভিন্ন বিতরণ করা ডেটা উত্পাদন করতে পারে

এখানে কিছু সাধারণ বাগ রয়েছে যা সমানভাবে বিতরণ করা ডেটা তৈরি করতে পারে:

  • তারিখের মতো নন-স্ট্রিং ডেটা প্রকারের প্রতিনিধিত্ব করতে স্ট্রিংগুলি ব্যবহার করা। উদাহরণস্বরূপ, "2017-03-01-11-45-03" এর মতো উপস্থাপনা সহ ডেটটাইম বৈশিষ্ট্যের জন্য আপনার কাছে অনেকগুলি অনন্য মান রয়েছে। অনন্য মানগুলি সমানভাবে বিতরণ করা হবে।

  • বৈশিষ্ট্য হিসাবে "সারি নম্বর" এর মতো সূচকগুলি অন্তর্ভুক্ত। এখানে আবার আপনার অনেকগুলি অনন্য মূল্য রয়েছে।

অনুপস্থিত তথ্য

কোনও বৈশিষ্ট্যটি পুরোপুরি মান অনুপস্থিত কিনা তা পরীক্ষা করতে:

  1. "ক্রম অনুসারে বাছাই / শূন্য" ড্রপ-ডাউন থেকে "বাছাই করুন" থেকে চয়ন করুন।
  2. "বিপরীত আদেশ" চেকবক্সটি পরীক্ষা করুন।
  3. কোনও বৈশিষ্ট্যের জন্য অনুপস্থিত মানগুলির সাথে দৃষ্টান্তগুলির শতাংশের জন্য "অনুপস্থিত" কলামটি দেখুন।

একটি ডেটা বাগও অসম্পূর্ণ বৈশিষ্ট্যের মানগুলির কারণ হতে পারে। উদাহরণস্বরূপ আপনি কোনও বৈশিষ্ট্যের মান তালিকার সর্বদা তিনটি উপাদান থাকতে পারে এবং এটি আবিষ্কার করতে পারেন যে কখনও কখনও এটিতে কেবল একটি থাকে। অসম্পূর্ণ মান বা অন্যান্য ক্ষেত্রে যেখানে বৈশিষ্ট্য মান তালিকাগুলিতে প্রত্যাশিত সংখ্যক উপাদান উপস্থিত নেই তা যাচাই করতে:

  1. ডানদিকে ড্রপ-ডাউন মেনু "প্রদর্শন করতে চার্ট" থেকে "মান তালিকার দৈর্ঘ্য" চয়ন করুন।

  2. প্রতিটি বৈশিষ্ট্য সারির ডানদিকে চার্টটি দেখুন। চার্টটি বৈশিষ্ট্যের জন্য মান তালিকার দৈর্ঘ্যের সীমা দেখায়। উদাহরণস্বরূপ, নীচের স্ক্রিনশটের হাইলাইট করা সারিটি এমন একটি বৈশিষ্ট্য দেখায় যা কিছু শূন্য-দৈর্ঘ্যের মান তালিকা রয়েছে:

শূন্য দৈর্ঘ্যের বৈশিষ্ট্য মান তালিকা সহ বৈশিষ্ট্যগুলির সাথে ফ্যাক্টস ওভারভিউ প্রদর্শন display

বৈশিষ্ট্যগুলির মধ্যে স্কেলের বড় পার্থক্য

আপনার বৈশিষ্ট্যগুলি যদি স্কেলে বিস্তৃত হয় তবে মডেলটি শিখতে সমস্যা হতে পারে। উদাহরণস্বরূপ, কিছু বৈশিষ্ট্য যদি 0 থেকে 1 এবং অন্যের 0 থেকে 1,000,000,000 এর মধ্যে পরিবর্তিত হয় তবে আপনার স্কেলের একটি বড় পার্থক্য রয়েছে। বিস্তৃত আকারের স্কেলগুলি খুঁজে পেতে বৈশিষ্ট্যগুলিতে "সর্বাধিক" এবং "মিনিট" কলামগুলি তুলনা করুন।

এই বিস্তৃত প্রকরণগুলি হ্রাস করতে বৈশিষ্ট্যের মানগুলিকে স্বাভাবিক করার বিষয়ে বিবেচনা করুন।

অবৈধ লেবেলযুক্ত লেবেল

টেনসরফ্লো এর অনুমানকারীদের লেবেল হিসাবে গ্রহণযোগ্য ডেটাগুলির ধরণের উপর বিধিনিষেধ রয়েছে। উদাহরণস্বরূপ, বাইনারি শ্রেণিবদ্ধকারীরা সাধারণত কেবল {0, 1} লেবেল নিয়ে কাজ করে।

ফ্যাক্টস ওভারভিউতে লেবেল মানগুলি পর্যালোচনা করুন এবং নিশ্চিত করুন যে তারা অনুমানকারীদের প্রয়োজনীয়তার সাথে সামঞ্জস্য রয়েছে।