wikipedia_toxicity_subtypes

  • Descriptif :

Les commentaires de cet ensemble de données proviennent d'une archive des commentaires de la page de discussion de Wikipédia. Ceux-ci ont été annotés par Jigsaw pour la toxicité, ainsi que (pour la configuration principale) une variété de sous-types de toxicité, y compris la toxicité sévère, l'obscénité, le langage menaçant, le langage insultant et les attaques d'identité. Cet ensemble de données est une réplique des données publiées pour le concours Jigsaw Toxic Comment Classification Challenge et Jigsaw Multilingual Toxic Comment Classification sur Kaggle, avec l'ensemble de données de test fusionné avec les test_labels publiés après la fin des compétitions. Les données de test non utilisées pour la notation ont été supprimées. Cet ensemble de données est publié sous CC0, tout comme le texte de commentaire sous-jacent.

  • Code source : tfds.text.WikipediaToxicitySubtypes

  • Versions :

    • 0.2.0 : Fonctionnalités mises à jour pour assurer la cohérence avec l'ensemble de données CivilComments.
    • 0.3.0 : Ajout de la configuration WikipediaToxicityMultilingual.
    • 0.3.1 (par défaut) : Ajout d'un identifiant unique pour chaque commentaire. (Pour la configuration multilingue, ceux-ci ne sont uniques que dans chaque division.)
  • Taille du téléchargement : 50.57 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Clés supervisées (Voir as_supervised doc ): ('text', 'toxicity')

  • Figure ( tfds.show_examples ) : non pris en charge.

  • Citation :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (configuration par défaut)

  • Description de la configuration : Les commentaires dans la configuration WikipediaToxicitySubtypes proviennent d'une archive de commentaires de la page de discussion Wikipédia en anglais qui ont été annotés par Jigsaw pour la toxicité, ainsi que cinq étiquettes de sous-type de toxicité (toxicité sévère, obscène, menace, insulte, attaque_d'identité). Les étiquettes de toxicité et de sous-type de toxicité sont des valeurs binaires (0 ou 1) indiquant si la majorité des annotateurs ont attribué cet attribut au texte du commentaire. Cette configuration est une réplique des données publiées pour le Jigsaw Toxic Comment Classification Challenge sur Kaggle, avec l'ensemble de données de test joint aux test_labels publiés après la compétition, et les données de test non utilisées pour la notation supprimées.

Voir la documentation Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 pour plus de détails.

Diviser Exemples
'test' 63 978
'train' 159 571
  • Structure des fonctionnalités :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Texte chaîne de caractères
attaque_d'identité Tenseur float32
insulte Tenseur float32
Langue Texte chaîne de caractères
obscène Tenseur float32
toxicité_sévère Tenseur float32
texte Texte chaîne de caractères
menace Tenseur float32
toxicité Tenseur float32

wikipedia_toxicity_subtypes/multilingue

  • Description de la configuration : les commentaires dans la configuration WikipediaToxicityMultilingual ici proviennent d'une archive de commentaires de pages de discussion Wikipédia non anglophones annotés par Jigsaw pour la toxicité, avec une valeur binaire (0 ou 1) indiquant si la majorité des annotateurs ont évalué le texte du commentaire comme toxique. Les commentaires de cette configuration sont dans plusieurs langues différentes (turc, italien, espagnol, portugais, russe et français). Cette configuration est une réplique des données publiées pour la classification Jigsaw Multilingual Toxic Comment Classification sur Kaggle, avec l'ensemble de données de test joint aux test_labels publiés après la compétition.

Voir la documentation Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data pour plus de détails.

Diviser Exemples
'test' 63 812
'validation' 8 000
  • Structure des fonctionnalités :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
identifiant Texte chaîne de caractères
Langue Texte chaîne de caractères
texte Texte chaîne de caractères
toxicité Tenseur float32