wikipedia_toxicity_subtypes

  • বর্ণনা :

এই ডেটাসেটের মন্তব্যগুলি উইকিপিডিয়া আলাপ পাতার মন্তব্যের সংরক্ষণাগার থেকে এসেছে। এগুলিকে বিষাক্ততার জন্য জিগস-এর দ্বারা টীকা দেওয়া হয়েছে, সেইসাথে (প্রধান কনফিগারেশনের জন্য) বিভিন্ন ধরনের বিষাক্ততার উপপ্রকার, যার মধ্যে রয়েছে মারাত্মক বিষাক্ততা, অশ্লীলতা, হুমকিমূলক ভাষা, অপমানজনক ভাষা এবং পরিচয় আক্রমণ। এই ডেটাসেটটি জিগস টক্সিক কমেন্ট ক্লাসিফিকেশন চ্যালেঞ্জ এবং জিগস মাল্টিলিঙ্গুয়াল টক্সিক কমেন্ট ক্লাসিফিকেশন প্রতিযোগিতার জন্য প্রকাশিত ডেটার একটি প্রতিরূপ, যেখানে প্রতিযোগিতার শেষ হওয়ার পরে প্রকাশিত টেস্ট_লেবেলের সাথে পরীক্ষার ডেটাসেট একত্রিত করা হয়েছে। স্কোরিংয়ের জন্য ব্যবহৃত হয়নি এমন পরীক্ষার ডেটা বাদ দেওয়া হয়েছে। এই ডেটাসেটটি CC0 এর অধীনে প্রকাশিত হয়েছে, যেমনটি অন্তর্নিহিত মন্তব্য পাঠ্য।

  • উত্স কোড : tfds.text.WikipediaToxicitySubtypes

  • সংস্করণ :

    • 0.2.0 : সিভিল কমেন্টস ডেটাসেটের সাথে সামঞ্জস্যের জন্য আপডেট করা বৈশিষ্ট্য।
    • 0.3.0 : WikipediaToxicity Multilingual কনফিগারেশন যোগ করা হয়েছে।
    • 0.3.1 (ডিফল্ট): প্রতিটি মন্তব্যের জন্য একটি অনন্য আইডি যোগ করা হয়েছে। (বহুভাষিক কনফিগারেশনের জন্য, এগুলি প্রতিটি বিভাজনের মধ্যেই অনন্য।)
  • ডাউনলোড সাইজ : 50.57 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • তত্ত্বাবধানে থাকা কী ( as_supervised doc ): ('text', 'toxicity')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/English Subtypes (ডিফল্ট কনফিগারেশন)

  • কনফিগারেশনের বিবরণ : WikipediaToxicitySubtypes কনফিগারেশনের মন্তব্যগুলি ইংরেজি উইকিপিডিয়া আলাপ পৃষ্ঠার মন্তব্যের একটি সংরক্ষণাগার থেকে যা জিগস-এর দ্বারা বিষাক্ততার জন্য টীকা দেওয়া হয়েছে, সেইসাথে পাঁচটি বিষাক্ততার উপ-টাইপ লেবেল (গুরুতর বিষাক্ততা, অশ্লীল, হুমকি, অপমান, পরিচয়_অ্যাটাক)। টক্সিসিটি এবং টক্সিসিটি সাবটাইপ লেবেল হল বাইনারি মান (0 বা 1) যা ইঙ্গিত করে যে বেশিরভাগ টীকাকাররা মন্তব্যের পাঠ্যে সেই বৈশিষ্ট্যটি বরাদ্দ করেছেন কিনা। এই কনফিগারেশনটি Kaggle-এ Jigsaw Toxic Comment Classification Challenge-এর জন্য প্রকাশিত ডেটার প্রতিরূপ, প্রতিযোগিতার পরে প্রকাশিত test_labels-এর সাথে পরীক্ষার ডেটাসেট যোগ করা হয়েছে, এবং স্কোরিং ড্রপ করার জন্য ব্যবহার করা হয়নি এমন পরীক্ষার ডেটা।

আরও বিস্তারিত জানার জন্য Kaggle ডকুমেন্টেশন https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data বা https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 দেখুন।

বিভক্ত উদাহরণ
'test' 63,978
'train' 159,571
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আইডি পাঠ্য স্ট্রিং
পরিচয়_আক্রমণ টেনসর float32
অপমান টেনসর float32
ভাষা পাঠ্য স্ট্রিং
অশ্লীল টেনসর float32
মারাত্মক_বিষাক্ততা টেনসর float32
পাঠ্য পাঠ্য স্ট্রিং
হুমকি টেনসর float32
বিষাক্ততা টেনসর float32

wikipedia_toxicity_subtypes/Multilingual

  • কনফিগারেশনের বিবরণ : এখানে WikipediaToxicityMultilingual কনফিগারেশনের মন্তব্যগুলি বিষাক্ততার জন্য জিগস-এর দ্বারা টীকাকৃত নন-ইংরেজি উইকিপিডিয়া আলাপ পাতার মন্তব্যের একটি সংরক্ষণাগার থেকে, একটি বাইনারি মান (0 বা 1) নির্দেশ করে যে বেশিরভাগ টীকাকার মন্তব্য পাঠকে বিষাক্ত হিসাবে রেট করেছেন কিনা। এই কনফিগারেশনের মন্তব্যগুলি একাধিক ভিন্ন ভাষায় (তুর্কি, ইতালীয়, স্প্যানিশ, পর্তুগিজ, রাশিয়ান এবং ফরাসি)। এই কনফিগারেশনটি Kaggle-এ জিগস মাল্টিলিঙ্গুয়াল টক্সিক কমেন্ট ক্লাসিফিকেশনের জন্য প্রকাশিত ডেটার প্রতিরূপ, প্রতিযোগিতার পরে প্রকাশিত টেস্ট_লেবেলের সাথে পরীক্ষার ডেটাসেট যোগ করা হয়েছে।

আরও বিস্তারিত জানার জন্য Kaggle ডকুমেন্টেশন https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data দেখুন।

বিভক্ত উদাহরণ
'test' 63,812
'validation' 8,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
আইডি পাঠ্য স্ট্রিং
ভাষা পাঠ্য স্ট্রিং
পাঠ্য পাঠ্য স্ট্রিং
বিষাক্ততা টেনসর float32