ন্যায্যতা সূচক: ন্যায্যতা মূল্যায়ন সম্পর্কে চিন্তা করা

ন্যায্যতার জন্য বাইনারি এবং মাল্টি-ক্লাস ক্লাসিফায়ারের মূল্যায়ন করার জন্য ন্যায্যতা সূচক একটি দরকারী টুল। অবশেষে, আমরা এই টুলটি প্রসারিত করার আশা করি, আপনাদের সকলের সাথে অংশীদারিত্বে, আরও বেশি বিবেচনার মূল্যায়ন করতে।

মনে রাখবেন যে পরিমাণগত মূল্যায়ন একটি বৃহত্তর ব্যবহারকারীর অভিজ্ঞতার মূল্যায়নের শুধুমাত্র একটি অংশ। বিভিন্ন প্রেক্ষাপট সম্পর্কে চিন্তা করে শুরু করুন যার মাধ্যমে একজন ব্যবহারকারী আপনার পণ্যটি অনুভব করতে পারে। আপনার পণ্য পরিবেশন করা প্রত্যাশিত ব্যবহারকারীদের বিভিন্ন ধরনের কারা? আর কে অভিজ্ঞতা দ্বারা প্রভাবিত হতে পারে?

মানুষের উপর AI এর প্রভাব বিবেচনা করার সময়, এটি সর্বদা মনে রাখা গুরুত্বপূর্ণ যে মানব সমাজগুলি অত্যন্ত জটিল! লোকেদের বোঝা, এবং তাদের সামাজিক পরিচয়, সামাজিক কাঠামো এবং সাংস্কৃতিক ব্যবস্থা প্রতিটি তাদের নিজস্ব অধিকারে খোলা গবেষণার বিশাল ক্ষেত্র। বিশ্বজুড়ে আন্তঃ-সাংস্কৃতিক পার্থক্যের জটিলতাগুলিকে ছুঁড়ে ফেলুন এবং সামাজিক প্রভাব বোঝার জন্য এমনকি একটি পা রাখাও চ্যালেঞ্জিং হতে পারে। যখনই সম্ভব, আপনাকে উপযুক্ত ডোমেন বিশেষজ্ঞদের সাথে পরামর্শ করার পরামর্শ দেওয়া হচ্ছে, যার মধ্যে থাকতে পারে সমাজ বিজ্ঞানী, সমাজভাষাবিদ এবং সাংস্কৃতিক নৃতাত্ত্বিক, সেইসাথে জনসংখ্যার সদস্যদের সাথে যাদের প্রযুক্তি স্থাপন করা হবে।

একটি একক মডেল, উদাহরণস্বরূপ, বিষাক্ততার মডেল যা আমরা উদাহরণ কোলাব -এ ব্যবহার করি, অনেকগুলি বিভিন্ন প্রসঙ্গে ব্যবহার করা যেতে পারে। আপত্তিকর মন্তব্যগুলি ফিল্টার করার জন্য একটি ওয়েবসাইটে মোতায়েন করা একটি বিষাক্ত মডেল, উদাহরণ স্বরূপ, একটি উদাহরণ ওয়েব UI-তে মোতায়েন করা মডেলের থেকে খুব আলাদা ব্যবহারের ক্ষেত্রে যেখানে ব্যবহারকারীরা একটি বাক্যে টাইপ করতে পারেন এবং দেখতে পারেন মডেলটি কী স্কোর দেয়৷ ব্যবহারের ক্ষেত্রে এবং ব্যবহারকারীরা কীভাবে মডেলের ভবিষ্যদ্বাণী অনুভব করেন তার উপর নির্ভর করে, আপনার পণ্যের বিভিন্ন ঝুঁকি, প্রভাব এবং সুযোগ থাকবে এবং আপনি বিভিন্ন ন্যায্যতার উদ্বেগের জন্য মূল্যায়ন করতে চাইতে পারেন।

উপরের প্রশ্নগুলি হল আপনার ML-ভিত্তিক পণ্য ডিজাইন এবং বিকাশ করার সময় ন্যায্যতা সহ কোন নৈতিক বিবেচনার ভিত্তি। এই প্রশ্নগুলিও অনুপ্রাণিত করে কোন মেট্রিক্স এবং ব্যবহারকারীদের কোন গ্রুপের মূল্যায়ন করার জন্য আপনার টুলটি ব্যবহার করা উচিত।

আরও ডুব দেওয়ার আগে, শুরু করার জন্য এখানে তিনটি প্রস্তাবিত সংস্থান রয়েছে:

  • দ্য পিপল + এআই গাইডবুক ফর হিউম্যান-কেন্দ্রিক এআই ডিজাইন: মেশিন-লার্নিং ভিত্তিক পণ্য ডিজাইন করার সময় প্রশ্ন এবং দিকগুলি মাথায় রাখতে এই গাইডবুকটি একটি দুর্দান্ত সম্পদ। যখন আমরা ডিজাইনারদের কথা মাথায় রেখে এই গাইডবুকটি তৈরি করেছি, তখন অনেক নীতি উপরে উল্লিখিত প্রশ্নের উত্তর দিতে সাহায্য করবে।
  • আমাদের ন্যায্যতার পাঠ শিখেছে : Google I/O-এ এই আলোচনা পাঠগুলি নিয়ে আলোচনা করে যা আমরা অন্তর্ভুক্ত পণ্যগুলি তৈরি এবং ডিজাইন করার লক্ষ্যে শিখেছি।
  • ML Crash Course: Fairness : ML Crash Course-এর একটি 70 মিনিটের বিভাগ রয়েছে যা ন্যায্যতা সংক্রান্ত উদ্বেগগুলিকে চিহ্নিত ও মূল্যায়ন করার জন্য নিবেদিত।

সুতরাং, কেন পৃথক টুকরা তাকান? স্বতন্ত্র স্লাইসের উপর মূল্যায়ন গুরুত্বপূর্ণ কারণ শক্তিশালী সামগ্রিক মেট্রিক্স নির্দিষ্ট গোষ্ঠীর জন্য খারাপ কর্মক্ষমতা অস্পষ্ট করতে পারে। একইভাবে, একটি নির্দিষ্ট মেট্রিকের জন্য ভাল পারফরম্যান্স (নির্ভুলতা, AUC) সবসময় অন্যান্য মেট্রিকের জন্য গ্রহণযোগ্য পারফরম্যান্সে অনুবাদ করে না (ফলস ইতিবাচক হার, মিথ্যা নেতিবাচক হার) যা ব্যবহারকারীদের জন্য সুযোগ এবং ক্ষতির মূল্যায়নে সমানভাবে গুরুত্বপূর্ণ।

নীচের বিভাগগুলি বিবেচনা করার জন্য কিছু দিক বিবেচনা করবে।

আমি কোন গ্রুপ দ্বারা টুকরা করা উচিত?

সাধারণভাবে, একটি ভাল অভ্যাস হল আপনার পণ্য দ্বারা প্রভাবিত হতে পারে এমন অনেকগুলি গোষ্ঠীর দ্বারা টুকরো টুকরো করা, যেহেতু আপনি কখনই জানেন না যে কখন একটির জন্য পারফরম্যান্স আলাদা হতে পারে। যাইহোক, আপনি যদি নিশ্চিত না হন, তাহলে আপনার পণ্যের সাথে জড়িত হতে পারে এমন বিভিন্ন ব্যবহারকারীদের সম্পর্কে চিন্তা করুন এবং তারা কীভাবে প্রভাবিত হতে পারে। বিবেচনা করুন, বিশেষ করে, জাতি, জাতি, লিঙ্গ, জাতীয়তা, আয়, যৌন অভিমুখীতা এবং অক্ষমতার অবস্থার মতো সংবেদনশীল বৈশিষ্ট্যগুলির সাথে সম্পর্কিত স্লাইসগুলি।

আমি যে স্লাইসগুলি তদন্ত করতে চাই সেগুলির জন্য আমার কাছে লেবেলযুক্ত ডেটা না থাকলে কী হবে?

ভাল প্রশ্ন. আমরা জানি যে অনেক ডেটাসেটে স্বতন্ত্র পরিচয় বৈশিষ্ট্যের জন্য গ্রাউন্ড-ট্রুথ লেবেল নেই।

আপনি যদি নিজেকে এই অবস্থানে খুঁজে পান, আমরা কয়েকটি পদ্ধতির সুপারিশ করি:

  1. শনাক্ত করুন যে আপনার কাছে এমন বৈশিষ্ট্য রয়েছে যা আপনাকে গ্রুপ জুড়ে পারফরম্যান্স সম্পর্কে কিছু অন্তর্দৃষ্টি দিতে পারে। উদাহরণস্বরূপ, ভূগোল যদিও জাতিগত এবং বর্ণের সমতুল্য নয়, পারফরম্যান্সের ক্ষেত্রে কোনও ভিন্ন প্যাটার্ন উন্মোচন করতে আপনাকে সাহায্য করতে পারে
  2. আপনার সমস্যাটি ভালভাবে ম্যাপ করতে পারে এমন প্রতিনিধি পাবলিক ডেটাসেট আছে কিনা তা চিহ্নিত করুন। আপনি Google AI সাইটে বিভিন্ন ধরনের এবং অন্তর্ভুক্তিমূলক ডেটাসেট খুঁজে পেতে পারেন, যার মধ্যে রয়েছে প্রজেক্ট রেসপেক্ট , ইনক্লুসিভ ইমেজ এবং ওপেন ইমেজ এক্সটেন্ডেড
  3. লিভারেজ নিয়ম বা শ্রেণীবিভাগ, যখন প্রাসঙ্গিক হয়, আপনার ডেটাকে উদ্দেশ্যমূলক পৃষ্ঠ-স্তরের বৈশিষ্ট্যগুলির সাথে লেবেল করতে। উদাহরণস্বরূপ, বাক্যটিতে একটি পরিচয় শব্দ আছে কিনা তা আপনি পাঠ্যকে লেবেল করতে পারেন। মনে রাখবেন যে শ্রেণিবিন্যাসকারীদের নিজস্ব চ্যালেঞ্জ রয়েছে এবং আপনি যদি সতর্ক না হন তবে পক্ষপাতের আরেকটি স্তরও প্রবর্তন করতে পারে। আপনার ক্লাসিফায়ার আসলে কি শ্রেণীবদ্ধ করছে সে সম্পর্কে পরিষ্কার হন। উদাহরণস্বরূপ, চিত্রগুলিতে একটি বয়স শ্রেণিবদ্ধকারী প্রকৃতপক্ষে অনুভূত বয়সকে শ্রেণিবদ্ধ করে। উপরন্তু, যখন সম্ভব, পৃষ্ঠ-স্তরের বৈশিষ্ট্যগুলিকে লিভারেজ করুন যা ডেটাতে উদ্দেশ্যমূলকভাবে চিহ্নিত করা যেতে পারে। উদাহরণস্বরূপ, জাতি বা জাতিগততার জন্য একটি ইমেজ ক্লাসিফায়ার তৈরি করা খারাপ-পরামর্শ দেওয়া হয়, কারণ এগুলি দৃশ্যমান বৈশিষ্ট্য নয় যা একটি ছবিতে সংজ্ঞায়িত করা যেতে পারে। একটি শ্রেণীবদ্ধকারী সম্ভবত প্রক্সি বা স্টেরিওটাইপগুলি বেছে নেবে। পরিবর্তে, স্কিন টোনের জন্য একটি ক্লাসিফায়ার তৈরি করা একটি চিত্রকে লেবেল এবং মূল্যায়ন করার আরও উপযুক্ত উপায় হতে পারে। সবশেষে, এই ধরনের গুণাবলী লেবেল করা ক্লাসিফায়ারদের জন্য উচ্চ নির্ভুলতা নিশ্চিত করুন।
  4. লেবেলযুক্ত আরও প্রতিনিধি ডেটা খুঁজুন

সর্বদা একাধিক, বিভিন্ন ডেটাসেটে মূল্যায়ন নিশ্চিত করুন।

যদি আপনার মূল্যায়নের ডেটা আপনার ব্যবহারকারী বেসের জন্য পর্যাপ্তভাবে প্রতিনিধিত্ব না করে, অথবা যে ধরনের ডেটার সম্মুখীন হতে পারে, তাহলে আপনি প্রতারণামূলকভাবে ভাল ন্যায্যতা মেট্রিক্সের সাথে শেষ হতে পারেন। একইভাবে, একটি ডেটাসেটের উচ্চ মডেল পারফরম্যান্স অন্যদের উপর উচ্চ কার্যক্ষমতার নিশ্চয়তা দেয় না।

মনে রাখবেন সাবগ্রুপগুলি সর্বদা ব্যক্তিদের শ্রেণীবদ্ধ করার সর্বোত্তম উপায় নয়।

মানুষ বহুমাত্রিক এবং একাধিক গোষ্ঠীর অন্তর্গত, এমনকি একটি একক মাত্রার মধ্যেও -- এমন কাউকে বিবেচনা করুন যিনি বহুজাতিক, বা একাধিক জাতিগত গোষ্ঠীর অন্তর্গত। এছাড়াও, যদিও একটি প্রদত্ত জাতিগত গোষ্ঠীর সামগ্রিক মেট্রিক্স ন্যায়সঙ্গত দেখাতে পারে, বিশেষ মিথস্ক্রিয়া, যেমন জাতি এবং লিঙ্গ একসাথে অনাকাঙ্ক্ষিত পক্ষপাত দেখাতে পারে। অধিকন্তু, অনেক উপগোষ্ঠীর অস্পষ্ট সীমানা রয়েছে যা ক্রমাগত পুনরায় আঁকা হচ্ছে।

আমি কখন পর্যাপ্ত স্লাইস পরীক্ষা করেছি এবং কোন স্লাইসগুলি পরীক্ষা করতে হবে তা আমি কীভাবে জানব?

আমরা স্বীকার করি যে প্রচুর সংখ্যক গোষ্ঠী বা স্লাইস রয়েছে যা পরীক্ষার জন্য প্রাসঙ্গিক হতে পারে এবং যখন সম্ভব, আমরা বিভিন্ন এবং বিস্তৃত স্লাইসগুলিকে টুকরো টুকরো করার এবং মূল্যায়ন করার এবং তারপরে যেখানে আপনি উন্নতির সুযোগগুলি খুঁজে পান সেখানে গভীর-ডাইভ করার পরামর্শ দিই। এটি স্বীকার করাও গুরুত্বপূর্ণ যে যদিও আপনি পরীক্ষা করেছেন এমন স্লাইসগুলির বিষয়ে আপনি উদ্বেগ দেখতে পাচ্ছেন না, তবে এটি বোঝায় না যে আপনার পণ্যটি সমস্ত ব্যবহারকারীর জন্য কাজ করে এবং আপনি ক্রমাগত নতুন শনাক্ত করছেন তা নিশ্চিত করার জন্য বিভিন্ন ব্যবহারকারীর প্রতিক্রিয়া এবং পরীক্ষা নেওয়া গুরুত্বপূর্ণ সুযোগ

শুরু করার জন্য, আমরা আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে এবং ব্যবহারকারীরা আপনার পণ্যের সাথে জড়িত হতে পারে এমন বিভিন্ন উপায় সম্পর্কে চিন্তা করার পরামর্শ দিই। কিভাবে বিভিন্ন ব্যবহারকারীর বিভিন্ন অভিজ্ঞতা থাকতে পারে? আপনি মূল্যায়ন করা উচিত টুকরা জন্য এর মানে কি? বিভিন্ন ব্যবহারকারীদের কাছ থেকে প্রতিক্রিয়া সংগ্রহ করা অগ্রাধিকার দেওয়ার জন্য সম্ভাব্য স্লাইসগুলিকেও হাইলাইট করতে পারে।

আমি কোন মেট্রিক্স নির্বাচন করা উচিত?

আপনার সিস্টেমের জন্য কোন মেট্রিকগুলিকে মূল্যায়ন করতে হবে তা নির্বাচন করার সময়, কে আপনার মডেলটি অনুভব করবে, এটি কীভাবে অনুভব করা হবে এবং সেই অভিজ্ঞতার প্রভাবগুলি বিবেচনা করুন৷

উদাহরণস্বরূপ, কীভাবে আপনার মডেল মানুষকে আরও মর্যাদা বা স্বায়ত্তশাসন দেয় বা তাদের মানসিক, শারীরিক বা আর্থিক সুস্থতাকে ইতিবাচকভাবে প্রভাবিত করে? বিপরীতে, কীভাবে আপনার মডেলের ভবিষ্যদ্বাণীগুলি মানুষের মর্যাদা বা স্বায়ত্তশাসনকে হ্রাস করতে পারে বা তাদের মানসিক, শারীরিক বা আর্থিক সুস্থতার উপর নেতিবাচক প্রভাব ফেলতে পারে?

সাধারণভাবে, আমরা ভাল অনুশীলন হিসাবে আপনার সমস্ত বিদ্যমান কর্মক্ষমতা মেট্রিক্সকে কাটার সুপারিশ করি। থ্রেশহোল্ড কীভাবে বিভিন্ন গ্রুপের পারফরম্যান্সকে প্রভাবিত করতে পারে তা বোঝার জন্য আমরা একাধিক থ্রেশহোল্ড জুড়ে আপনার মেট্রিক্সের মূল্যায়ন করার পরামর্শ দিই

উপরন্তু, যদি একটি ভবিষ্যদ্বাণীকৃত লেবেল থাকে যা একইভাবে "ভাল" বা "খারাপ" হয়, তাহলে সেই লেবেলটির পূর্বাভাস দেওয়া হারে রিপোর্টিং (প্রতিটি উপগোষ্ঠীর জন্য) বিবেচনা করুন। উদাহরণস্বরূপ, একটি "ভাল" লেবেল হবে এমন একটি লেবেল যার ভবিষ্যদ্বাণী একজন ব্যক্তিকে কিছু সংস্থানে অ্যাক্সেস দেয়, বা কিছু কাজ সম্পাদন করতে সক্ষম করে।

শ্রেণীবিভাগের জন্য সমালোচনামূলক ন্যায্যতা মেট্রিক্স

একটি শ্রেণীবিভাগ মডেল সম্পর্কে চিন্তা করার সময়, ত্রুটিগুলির প্রভাবগুলি সম্পর্কে চিন্তা করুন (প্রকৃত "গ্রাউন্ড ট্রুথ" লেবেল এবং মডেল থেকে লেবেলের মধ্যে পার্থক্য)। যদি কিছু ত্রুটি আপনার ব্যবহারকারীদের জন্য আরও সুযোগ বা ক্ষতির কারণ হতে পারে, তবে নিশ্চিত করুন যে আপনি ব্যবহারকারীদের গ্রুপ জুড়ে এই ত্রুটিগুলির হারগুলি মূল্যায়ন করেছেন৷ এই ত্রুটির হারগুলি নীচে সংজ্ঞায়িত করা হয়েছে, বর্তমানে ন্যায্যতা সূচক বিটা দ্বারা সমর্থিত মেট্রিক্সে।

পরের বছর ধরে, আমরা আশা করি বিভিন্ন ব্যবহারের কেস এবং এর সাথে সম্পর্কিত মেট্রিকগুলির কেস স্টাডি প্রকাশ করব যাতে বিভিন্ন মেট্রিক্স কখন সবচেয়ে উপযুক্ত হতে পারে তা আমরা আরও ভালভাবে হাইলাইট করতে পারি।

মেট্রিক্স আজ ন্যায্যতা সূচকে উপলব্ধ

ইতিবাচক হার / নেতিবাচক হার

  • সংজ্ঞা: ডেটা পয়েন্টের শতাংশ যেগুলিকে ইতিবাচক বা নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়, স্থল সত্য থেকে স্বাধীন
  • এর সাথে সম্পর্কিত: ডেমোগ্রাফিক প্যারিটি এবং ফলাফলের সমতা, যখন উপগোষ্ঠী জুড়ে সমান
  • কখন এই মেট্রিকটি ব্যবহার করবেন: ন্যায্যতা ব্যবহারের ক্ষেত্রে যেখানে গোষ্ঠীর সমান চূড়ান্ত শতাংশ থাকা গুরুত্বপূর্ণ

সত্য ইতিবাচক হার / মিথ্যা নেতিবাচক হার

  • সংজ্ঞা: পজিটিভ ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথের লেবেল হিসাবে) যেগুলি সঠিকভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে, বা পজিটিভ ডেটা পয়েন্টগুলির শতাংশ যা ভুলভাবে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে
  • এর সাথে সম্পর্কিত: সুযোগের সমতা (ইতিবাচক শ্রেণীর জন্য), যখন উপগোষ্ঠী জুড়ে সমান
  • এই মেট্রিকটি কখন ব্যবহার করবেন: ন্যায্যতা ব্যবহারের ক্ষেত্রে যেখানে এটি গুরুত্বপূর্ণ যে প্রতিটি গ্রুপে যোগ্য প্রার্থীদের একই %কে ইতিবাচক রেট দেওয়া হয়। ইতিবাচক ফলাফলের শ্রেণীবিভাগের ক্ষেত্রে এটি সাধারণত সুপারিশ করা হয়, যেমন ঋণের আবেদন, স্কুলে ভর্তি বা বিষয়বস্তু বাচ্চাদের জন্য উপযুক্ত কিনা

ট্রু নেগেটিভ রেট/ফলস পজিটিভ রেট

  • সংজ্ঞা: নেতিবাচক ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথ হিসাবে লেবেলযুক্ত) যা সঠিকভাবে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে, বা নেতিবাচক ডেটা পয়েন্টগুলির শতাংশ যা ভুলভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে
  • এর সাথে সম্পর্কিত: সুযোগের সমতা (নেতিবাচক শ্রেণীর জন্য), যখন উপগোষ্ঠী জুড়ে সমান
  • এই মেট্রিকটি কখন ব্যবহার করবেন: ন্যায্যতা ব্যবহারের ক্ষেত্রে যেখানে ত্রুটির হার (বা কিছুকে ইতিবাচক হিসাবে ভুল শ্রেণিবদ্ধ করা) ইতিবাচককে শ্রেণীবদ্ধ করার চেয়ে বেশি সম্পর্কিত। এটি অপব্যবহারের ক্ষেত্রে সবচেয়ে সাধারণ, যেখানে ইতিবাচকগুলি প্রায়ই নেতিবাচক কর্মের দিকে পরিচালিত করে। ফেসিয়াল অ্যানালাইসিস টেকনোলজির জন্যও এগুলি গুরুত্বপূর্ণ যেমন ফেস ডিটেকশন বা ফেস অ্যাট্রিবিউট

নির্ভুলতা এবং AUC

  • এর সাথে সম্পর্কিত: অনুমানমূলক সমতা, যখন উপগোষ্ঠী জুড়ে সমান
  • এই মেট্রিকগুলি কখন ব্যবহার করবেন: এমন ক্ষেত্রে যেখানে টাস্কের নির্ভুলতা সবচেয়ে গুরুত্বপূর্ণ (প্রদত্ত দিক থেকে অগত্যা নয়), যেমন মুখ শনাক্তকরণ বা ফেস ক্লাস্টারিং

মিথ্যা আবিষ্কারের হার

  • সংজ্ঞা: পজিটিভ হিসাবে শ্রেণীবদ্ধ সমস্ত ডেটা পয়েন্টের মধ্যে নেতিবাচক ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথ লেবেলযুক্ত) যা ভুলভাবে ইতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে। এটি PPV এর বিপরীতও
  • এর সাথে সম্পর্কিত: ভবিষ্যদ্বাণীমূলক সমতা (এটি ক্রমাঙ্কন নামেও পরিচিত), যখন উপগোষ্ঠী জুড়ে সমান
  • এই মেট্রিকটি কখন ব্যবহার করবেন: এমন ক্ষেত্রে যেখানে সঠিক ইতিবাচক ভবিষ্যদ্বাণীর ভগ্নাংশ উপগোষ্ঠী জুড়ে সমান হওয়া উচিত

মিথ্যা বাদ দেওয়ার হার

  • সংজ্ঞা: নেতিবাচক হিসাবে শ্রেণীবদ্ধ সমস্ত ডেটা পয়েন্টের মধ্যে ধনাত্মক ডেটা পয়েন্টের শতাংশ (গ্রাউন্ড ট্রুথ লেবেল হিসাবে) যা ভুলভাবে নেতিবাচক হিসাবে শ্রেণীবদ্ধ করা হয়েছে। এটিও NPV এর বিপরীত
  • এর সাথে সম্পর্কিত: ভবিষ্যদ্বাণীমূলক সমতা (এটি ক্রমাঙ্কন নামেও পরিচিত), যখন উপগোষ্ঠী জুড়ে সমান
  • এই মেট্রিকটি কখন ব্যবহার করবেন: এমন ক্ষেত্রে যেখানে সঠিক নেতিবাচক পূর্বাভাসের ভগ্নাংশ উপগোষ্ঠী জুড়ে সমান হওয়া উচিত

সামগ্রিক ফ্লিপ রেট / নেতিবাচক পূর্বাভাস ফ্লিপ রেট / নেতিবাচক থেকে ইতিবাচক পূর্বাভাস ফ্লিপ রেট

  • সংজ্ঞা: প্রদত্ত বৈশিষ্ট্যে পরিচয় বৈশিষ্ট্য পরিবর্তন করা হলে শ্রেণীবিভাগকারী একটি ভিন্ন ভবিষ্যদ্বাণী দেয় এমন সম্ভাবনা।
  • এর সাথে সম্পর্কিত: বিপরীত ন্যায্যতা
  • এই মেট্রিকটি কখন ব্যবহার করবেন: উদাহরণে উল্লেখ করা সংবেদনশীল বৈশিষ্ট্যগুলি সরানো বা প্রতিস্থাপন করা হলে মডেলের ভবিষ্যদ্বাণী পরিবর্তন হয় কিনা তা নির্ধারণ করার সময়৷ যদি তা হয়ে থাকে, টেনসরফ্লো মডেল রিমিডিয়েশন লাইব্রেরির মধ্যে কাউন্টারফ্যাকচুয়াল লগিট পেয়ারিং কৌশল ব্যবহার করার কথা বিবেচনা করুন।

ফ্লিপ কাউন্ট / ইতিবাচক থেকে নেতিবাচক ভবিষ্যদ্বাণী ফ্লিপ কাউন্ট / নেতিবাচক থেকে ইতিবাচক পূর্বাভাস ফ্লিপ কাউন্ট *

  • সংজ্ঞা: প্রদত্ত উদাহরণে পরিচয় শব্দটি পরিবর্তিত হলে শ্রেণীবিভাগকারী কতবার একটি ভিন্ন ভবিষ্যদ্বাণী দেয়।
  • এর সাথে সম্পর্কিত: বিপরীত ন্যায্যতা
  • এই মেট্রিকটি কখন ব্যবহার করবেন: উদাহরণে উল্লেখ করা সংবেদনশীল বৈশিষ্ট্যগুলি সরানো বা প্রতিস্থাপন করা হলে মডেলের ভবিষ্যদ্বাণী পরিবর্তন হয় কিনা তা নির্ধারণ করার সময়৷ যদি তা হয়ে থাকে, টেনসরফ্লো মডেল রিমিডিয়েশন লাইব্রেরির মধ্যে কাউন্টারফ্যাকচুয়াল লগিট পেয়ারিং কৌশল ব্যবহার করার কথা বিবেচনা করুন।

কোন মেট্রিক্স নির্বাচন করতে হবে তার উদাহরণ

  • একটি ক্যামেরা অ্যাপে পদ্ধতিগতভাবে মুখ সনাক্ত করতে ব্যর্থ হলে নির্দিষ্ট ব্যবহারকারী গোষ্ঠীর জন্য একটি নেতিবাচক ব্যবহারকারীর অভিজ্ঞতা হতে পারে। এই ক্ষেত্রে, একটি মুখ শনাক্তকরণ সিস্টেমের মিথ্যা নেতিবাচকগুলি পণ্যের ব্যর্থতার দিকে পরিচালিত করতে পারে, যখন একটি মিথ্যা পজিটিভ (একটি না থাকলে একটি মুখ সনাক্ত করা) ব্যবহারকারীর কাছে সামান্য বিরক্তির কারণ হতে পারে৷ এইভাবে, এই ব্যবহারের ক্ষেত্রে মিথ্যা নেতিবাচক হারের মূল্যায়ন এবং হ্রাস করা গুরুত্বপূর্ণ।
  • একটি সংযম ব্যবস্থায় নির্দিষ্ট লোকের পাঠ্য মন্তব্যগুলিকে অন্যায়ভাবে "স্প্যাম" বা "উচ্চ বিষাক্ততা" হিসাবে চিহ্নিত করার ফলে কিছু ভয়েস নীরব হয়ে যায়। একদিকে, একটি উচ্চ মিথ্যা ইতিবাচক হার অন্যায্য সেন্সরশিপের দিকে পরিচালিত করে। অন্যদিকে, একটি উচ্চ মিথ্যা নেতিবাচক হার নির্দিষ্ট গোষ্ঠী থেকে বিষাক্ত সামগ্রীর বিস্তার ঘটাতে পারে, যা ব্যবহারকারীর ক্ষতি করতে পারে এবং সেই গোষ্ঠীগুলির জন্য একটি প্রতিনিধিত্বমূলক ক্ষতি গঠন করতে পারে। এইভাবে, নির্ভুলতা বা AUC-এর মতো সব ধরনের ত্রুটি বিবেচনায় নেওয়া মেট্রিক ছাড়াও উভয় মেট্রিকই বিবেচনা করা গুরুত্বপূর্ণ।

আপনি যে মেট্রিকগুলি খুঁজছেন তা দেখতে পাচ্ছেন না?

আপনার নিজস্ব কাস্টম মেট্রিক যোগ করতে এখানে ডকুমেন্টেশন অনুসরণ করুন.

চূড়ান্ত নোট

দুটি গ্রুপের মধ্যে মেট্রিকের একটি ব্যবধান একটি চিহ্ন হতে পারে যে আপনার মডেলে অন্যায্য skews থাকতে পারে । আপনার ব্যবহারের ক্ষেত্রে আপনার ফলাফলগুলিকে ব্যাখ্যা করা উচিত। যাইহোক, প্রথম লক্ষণ যে আপনি ব্যবহারকারীদের একটি সেটের সাথে অন্যায়ভাবে আচরণ করছেন তা হল যখন ব্যবহারকারীদের সেট এবং আপনার সামগ্রিকতার মধ্যে মেট্রিক্স উল্লেখযোগ্যভাবে আলাদা। এই পার্থক্যগুলি দেখার সময় আত্মবিশ্বাসের ব্যবধানের জন্য অ্যাকাউন্ট নিশ্চিত করুন। যখন আপনার একটি নির্দিষ্ট স্লাইসে খুব কম নমুনা থাকে, তখন মেট্রিক্সের মধ্যে পার্থক্য সঠিক নাও হতে পারে।

ন্যায্যতা সূচকে সমতা অর্জনের অর্থ এই নয় যে মডেলটি ন্যায্য। সিস্টেমগুলি অত্যন্ত জটিল, এবং প্রদত্ত মেট্রিকগুলির একটিতে (বা এমনকি সমস্ত) সমতা অর্জন করা ন্যায্যতার গ্যারান্টি দিতে পারে না।

ন্যায্যতা মূল্যায়ন উন্নয়ন প্রক্রিয়া এবং পোস্ট-লঞ্চ (লঞ্চের আগের দিন নয়) জুড়ে চালানো উচিত। ঠিক যেমন আপনার পণ্যের উন্নতি একটি চলমান প্রক্রিয়া এবং ব্যবহারকারী এবং বাজার প্রতিক্রিয়ার উপর ভিত্তি করে সমন্বয় সাপেক্ষে, আপনার পণ্যকে ন্যায্য এবং ন্যায়সঙ্গত করে তোলার জন্য চলমান মনোযোগ প্রয়োজন। মডেলের বিভিন্ন দিক যেমন পরিবর্তিত হয়, যেমন প্রশিক্ষণের ডেটা, অন্যান্য মডেলের ইনপুট বা ডিজাইন নিজেই, ন্যায্যতা মেট্রিক্স পরিবর্তন হতে পারে। "বারটি পরিষ্কার করা" একবার নিশ্চিত করার জন্য যথেষ্ট নয় যে সমস্ত ইন্টারঅ্যাক্টিং উপাদান সময়ের সাথে অক্ষত রয়েছে।

বিরল, দূষিত উদাহরণের জন্য প্রতিপক্ষের পরীক্ষা করা উচিত। ন্যায্যতা মূল্যায়ন প্রতিপক্ষের পরীক্ষা প্রতিস্থাপন করার জন্য নয়। বিরল, লক্ষ্যযুক্ত উদাহরণগুলির বিরুদ্ধে অতিরিক্ত প্রতিরক্ষা অত্যন্ত গুরুত্বপূর্ণ কারণ এই উদাহরণগুলি সম্ভবত প্রশিক্ষণ বা মূল্যায়ন ডেটাতে প্রকাশ পাবে না।