wikipedia_toxicity_subtypes

  • Description:

Cette version de l'ensemble de données Wikipedia Toxicity Subtypes donne accès à l'étiquette de toxicité principale, ainsi qu'aux cinq étiquettes de sous-type de toxicité annotées par les travailleurs de la foule. Les étiquettes de toxicité et de sous-type de toxicité sont des valeurs binaires (0 ou

1) indiquant si la majorité des annotateurs ont attribué cet attribut au texte du commentaire.

Les commentaires de cet ensemble de données proviennent d'une archive de commentaires sur les pages de discussion de Wikipédia. Ceux-ci ont été annotés par Jigsaw pour la toxicité, ainsi qu'une variété de sous-types de toxicité, y compris la toxicité grave, l'obscénité, le langage menaçant, le langage insultant et les attaques d'identité. Cet ensemble de données est une réplique des données publiées pour le Jigsaw Toxic Comment Classification Challenge sur Kaggle, avec l'ensemble d'entraînement inchangé et l'ensemble de données de test fusionné avec les test_labels publiés après la fin de la compétition. Les données de test non utilisées pour la notation ont été supprimées. Cet ensemble de données est publié sous CC0, tout comme le texte du commentaire sous-jacent.

Consultez la documentation Kaggle ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 pour plus de détails.

Diviser Exemples
'test' 63 978
'train' 159 571
  • Caractéristiques:
FeaturesDict({
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • citation:
@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}