commentaires_civils

  • Description:

Cette version de l'ensemble de données CivilComments permet d'accéder aux sept étiquettes principales qui ont été annotées par les travailleurs de la foule, la toxicité et les autres étiquettes sont une valeur comprise entre 0 et 1 indiquant la fraction d'annotateurs qui ont attribué ces attributs au texte du commentaire.

Les autres balises ne sont disponibles que pour une fraction des exemples d'entrée. Ils sont actuellement ignorés pour le jeu de données principal ; l'ensemble CivilCommentsIdentities inclut ces étiquettes, mais se compose uniquement du sous-ensemble des données avec elles. Les autres attributs qui faisaient partie de la version originale de CivilComments sont inclus uniquement dans les données brutes. Consultez la documentation Kaggle pour plus de détails sur les fonctionnalités disponibles.

Les commentaires de cet ensemble de données proviennent d'une archive de la plate-forme Civil Comments, un plugin de commentaires pour les sites d'information indépendants. Ces commentaires publics ont été créés entre 2015 et 2017 et sont apparus sur environ 50 sites d'information en anglais à travers le monde. Lorsque Civil Comments a fermé ses portes en 2017, ils ont choisi de rendre les commentaires publics disponibles dans une archive ouverte durable pour permettre de futures recherches. Les données originales, publiées sur figshare, incluent le texte des commentaires publics, certaines métadonnées associées telles que les identifiants d'articles, les horodatages et les étiquettes de « civilité » générées par les commentateurs, mais n'incluent pas les identifiants d'utilisateur. Jigsaw a étendu cet ensemble de données en ajoutant des étiquettes supplémentaires pour la toxicité, les mentions d'identité, ainsi que l'offensive secrète. Cet ensemble de données est une réplique exacte des données publiées pour le défi Kaggle Jigsaw Unintended Bias in Toxicity Classification. Cet ensemble de données est publié sous CC0, tout comme le texte du commentaire sous-jacent.

civil_comments/CivilComments (configuration par défaut)

  • Description Config: Les CivilComments définies ici inclut toutes les données, mais seulement les sept de base des étiquettes (toxicité, severe_toxicity, obscène, menace, insulte, identity_attack et sexual_explicit).

  • Dataset Taille: 959.64 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 97 320
'train' 1 804 874
'validation' 97 320
  • Caractéristiques:
FeaturesDict({
    'id': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • citation:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsIdentities

  • Description Config: Les CivilCommentsIdentities définies ici comprend un ensemble étendu d'étiquettes d'identité en plus des sept étiquettes de base. Cependant, il n'inclut que le sous-ensemble (environ un quart) des données avec toutes ces caractéristiques.

  • Dataset Taille: 510.17 MiB

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 21 577
'train' 405 130
'validation' 21 293
  • Caractéristiques:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.float32,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • citation:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments/CivilCommentsCovert

  • Description Config: L'ensemble de CivilCommentsCovert est un sous - ensemble de CivilCommentsIdentities avec ~ 20% des fentes de train et de test supplémentaire annotées pour offensiveness secrète, en plus des étiquettes de toxicité et d' identité. Les évaluateurs ont été invités à catégoriser les commentaires comme étant explicitement, implicitement, pas ou pas sûr qu'ils soient offensants, ainsi que s'ils contenaient différents types d'offense secrète. La procédure d'annotation complète est détaillée dans un article à paraître à https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Dataset Taille: 79.61 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 2 455
'train' 48 074
  • Caractéristiques:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.float32,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • citation:
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}