ويكيبيديا

  • الوصف :

تأتي التعليقات في مجموعة البيانات هذه من أرشيف تعليقات صفحة نقاش ويكيبيديا. تم شرحها بواسطة Jigsaw لمعرفة السمية ، وكذلك (للتكوين الرئيسي) مجموعة متنوعة من الأنواع الفرعية السمية ، بما في ذلك السمية الشديدة ، والفحش ، واللغة التهديدية ، واللغة المهينة ، وهجمات الهوية. مجموعة البيانات هذه هي نسخة طبق الأصل من البيانات التي تم إصدارها لمسابقة Jigsaw Toxic Comment Classification و Jigsaw Multilingual Toxic Comment Classification على Kaggle ، مع دمج مجموعة بيانات الاختبار مع test_labels التي تم إصدارها بعد نهاية المسابقات. تم إسقاط بيانات الاختبار غير المستخدمة للتسجيل. تم إصدار مجموعة البيانات هذه تحت CC0 ، كما هو الحال في نص التعليق الأساسي.

  • كود المصدر : tfds.text.WikipediaToxicitySubtypes

  • إصدارات :

    • 0.2.0 : ميزات محدثة للتوافق مع مجموعة بيانات CivilComments.
    • 0.3.0 : تمت إضافة WikipediaToxicityMultilingual config.
    • 0.3.1 (افتراضي): تمت إضافة معرف فريد لكل تعليق. (بالنسبة للتكوين متعدد اللغات ، تكون هذه فريدة فقط داخل كل تقسيم.)
  • حجم التحميل : 50.57 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): ('text', 'toxicity')

  • الشكل ( tfds.show_examples ): غير مدعوم.

  • الاقتباس :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / English الأنواع الفرعية (التكوين الافتراضي)

  • وصف التكوين : التعليقات الموجودة في تكوين WikipediaToxicitySubtypes هي من أرشيف تعليقات صفحة نقاش Wikipedia باللغة الإنجليزية والتي تم شرحها بواسطة Jigsaw من أجل السمية ، بالإضافة إلى خمسة تسميات فرعية للسمية (سمية شديدة ، فاحشة ، تهديد ، إهانة ، هجوم الهوية). تسميات الأنواع الفرعية للسمية والسمية هي قيم ثنائية (0 أو 1) تشير إلى ما إذا كانت غالبية التعليقات التوضيحية قد عينت تلك السمة لنص التعليق. هذا التكوين هو نسخة طبق الأصل من البيانات التي تم إصدارها لتحدي تصنيف Jigsaw Toxic Comment على Kaggle ، مع مجموعة بيانات الاختبار المرتبطة بعلامات الاختبار التي تم إصدارها بعد المنافسة ، وإسقاط بيانات الاختبار التي لم يتم استخدامها للتسجيل.

راجع وثائق Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data أو https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 لمزيد من التفاصيل.

انشق، مزق أمثلة
'test' 63978
'train' 159.571
  • هيكل الميزة :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية نص سلسلة
هوية_هجوم موتر تعويم 32
إهانة موتر تعويم 32
لغة نص سلسلة
فاحش موتر تعويم 32
السمية الشديدة موتر تعويم 32
نص نص سلسلة
التهديد موتر تعويم 32
تسمم موتر تعويم 32

wikipedia_toxicity_subtypes / متعدد اللغات

  • وصف التكوين : التعليقات الموجودة في WikipediaToxicityMultilingual config هنا مأخوذة من أرشيف تعليقات صفحة نقاش غير إنجليزية ويكيبيديا تم شرحها بواسطة Jigsaw للسمية ، مع قيمة ثنائية (0 أو 1) تشير إلى ما إذا كانت غالبية المعلقين صنفوا نص التعليق على أنه سام. التعليقات في هذا التكوين بعدة لغات مختلفة (التركية والإيطالية والإسبانية والبرتغالية والروسية والفرنسية). هذا التكوين هو نسخة طبق الأصل من البيانات التي تم إصدارها لتصنيف Jigsaw Multilingual Toxic Comment Classification على Kaggle ، مع مجموعة بيانات الاختبار المرتبطة بعلامات الاختبار التي تم إصدارها بعد المنافسة.

راجع وثائق Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data لمزيد من التفاصيل.

انشق، مزق أمثلة
'test' 63812
'validation' 8000
  • هيكل الميزة :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
هوية شخصية نص سلسلة
لغة نص سلسلة
نص نص سلسلة
تسمم موتر تعويم 32