لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

تعليقات مدنية

  • الوصف :

يوفر هذا الإصدار من مجموعة بيانات CivilComments الوصول إلى الملصقات السبعة الأساسية التي تم شرحها من قبل عمال الحشد ، والسمية والعلامات الأخرى هي قيمة بين 0 و 1 تشير إلى جزء التعليقات التوضيحية التي عينت هذه السمات لنص التعليق.

العلامات الأخرى متاحة فقط لجزء بسيط من أمثلة الإدخال. يتم تجاهلها حاليًا لمجموعة البيانات الرئيسية ؛ تشتمل مجموعة الهويات المدنية على تلك الملصقات ، ولكنها تتكون فقط من مجموعة فرعية من البيانات معها. يتم تضمين السمات الأخرى التي كانت جزءًا من إصدار "التعليقات المدنية" الأصلي فقط في البيانات الأولية. راجع وثائق Kaggle للحصول على مزيد من التفاصيل حول الميزات المتاحة.

تأتي التعليقات في مجموعة البيانات هذه من أرشيف لمنصة التعليقات المدنية ، وهو مكون إضافي للتعليق لمواقع الأخبار المستقلة. تم إنشاء هذه التعليقات العامة من 2015 إلى 2017 وظهرت على ما يقرب من 50 موقعًا إخباريًا باللغة الإنجليزية في جميع أنحاء العالم. عندما أغلقت التعليقات المدنية في عام 2017 ، اختاروا إتاحة التعليقات العامة في أرشيف مفتوح دائم لتمكين البحث في المستقبل. تتضمن البيانات الأصلية المنشورة على figshare نص التعليق العام وبعض البيانات الوصفية المرتبطة به مثل معرفات المقالات والطوابع الزمنية وعلامات "التحضر" التي ينشئها المعلقون ، ولكنها لا تتضمن معرفات المستخدمين. قامت Jigsaw بتوسيع مجموعة البيانات هذه من خلال إضافة ملصقات إضافية للسمية ، وإشارات الهوية ، بالإضافة إلى الهجوم الخفي. مجموعة البيانات هذه هي نسخة طبق الأصل من البيانات التي تم إصدارها لتحدي Kaggle لـ Jigsaw Unintended Bias في تصنيف السمية. تم إصدار مجموعة البيانات هذه تحت CC0 ، كما هو الحال في نص التعليق الأساسي.

  • الصفحة الرئيسية : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • كود المصدر : tfds.text.CivilComments

  • إصدارات :

    • 1.0.0 : إصدار أولي كامل.
    • 1.0.1 : تم إضافة معرف فريد لكل تعليق.
    • 1.1.0 : تمت إضافة تهيئة CivilCommentsCovert.
    • 1.1.1 : تمت إضافة تهيئة CivilCommentsCovert مع المجموع الاختباري الصحيح.
    • 1.1.2 (افتراضي): تمت إضافة اقتباس منفصل لمجموعة بيانات CivilCommentsCovert.
  • حجم التحميل : 397.83 MiB

  • المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): ('text', 'toxicity')

  • الشكل ( tfds.show_examples ): غير مدعوم.

Civil_comments / CivilComments (التكوين الافتراضي)

  • وصف التكوين : تتضمن مجموعة التعليقات المدنية هنا جميع البيانات ، ولكن فقط الملصقات السبعة الأساسية (السمية ، السمية الشديدة ، الفاحشة ، التهديد ، الإهانة ، الهجوم على الهوية ، والهجوم الجنسي).

  • حجم مجموعة البيانات : 959.64 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 97320
'train' 1،804،874
'validation' 97320
  • الميزات :
FeaturesDict({
    'id': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • الاقتباس :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsIdentities

  • وصف التكوين : تتضمن CivilCommentsIdentities المحددة هنا مجموعة موسعة من ملصقات الهوية بالإضافة إلى الملصقات السبعة الأساسية. ومع ذلك ، فإنه يشمل فقط المجموعة الفرعية (ربع تقريبًا) من البيانات مع كل هذه الميزات.

  • حجم مجموعة البيانات : 510.17 MiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 21.577
'train' 405130
'validation' 21293
  • الميزات :
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • الاقتباس :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

Civil_comments / CivilCommentsCovert

  • وصف التكوين : مجموعة CivilCommentsCovert هي مجموعة فرعية من CivilCommentsIdentities مع حوالي 20٪ من أقسام القطار والاختبار مشروحة بشكل إضافي للهجوم السري ، بالإضافة إلى تسميات السمية والهوية. طُلب من المقيِّمين تصنيف التعليقات على أنها تعليقات صريحة أو ضمنية أو لا أو غير متأكدة مما إذا كانت مسيئة ، وكذلك ما إذا كانت تحتوي على أنواع مختلفة من العدوانية السرية. تم تفصيل إجراء التعليق التوضيحي الكامل في ورقة قادمة على https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • حجم مجموعة البيانات : 79.61 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 2،455
'train' 48.074
  • الميزات :
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.float32,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • الاقتباس :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}