- Descriptif :
Les commentaires de cet ensemble de données proviennent d'une archive des commentaires de la page de discussion de Wikipédia. Ceux-ci ont été annotés par Jigsaw pour la toxicité, ainsi que (pour la configuration principale) une variété de sous-types de toxicité, y compris la toxicité sévère, l'obscénité, le langage menaçant, le langage insultant et les attaques d'identité. Cet ensemble de données est une réplique des données publiées pour le concours Jigsaw Toxic Comment Classification Challenge et Jigsaw Multilingual Toxic Comment Classification sur Kaggle, avec l'ensemble de données de test fusionné avec les test_labels publiés après la fin des compétitions. Les données de test non utilisées pour la notation ont été supprimées. Cet ensemble de données est publié sous CC0, tout comme le texte de commentaire sous-jacent.
Code source :
tfds.text.WikipediaToxicitySubtypes
Versions :
-
0.2.0
: Fonctionnalités mises à jour pour assurer la cohérence avec l'ensemble de données CivilComments. -
0.3.0
: Ajout de la configuration WikipediaToxicityMultilingual. -
0.3.1
(par défaut) : Ajout d'un identifiant unique pour chaque commentaire. (Pour la configuration multilingue, ceux-ci ne sont uniques que dans chaque division.)
-
Taille du téléchargement :
50.57 MiB
Mise en cache automatique ( documentation ): Oui
Clés supervisées (Voir
as_supervised
doc ):('text', 'toxicity')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@inproceedings{10.1145/3038912.3052591,
author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
title = {Ex Machina: Personal Attacks Seen at Scale},
year = {2017},
isbn = {9781450349130},
publisher = {International World Wide Web Conferences Steering Committee},
address = {Republic and Canton of Geneva, CHE},
url = {https://doi.org/10.1145/3038912.3052591},
doi = {10.1145/3038912.3052591},
booktitle = {Proceedings of the 26th International Conference on World Wide Web},
pages = {1391-1399},
numpages = {9},
keywords = {online discussions, wikipedia, online harassment},
location = {Perth, Australia},
series = {WWW '17}
}
wikipedia_toxicity_subtypes/EnglishSubtypes (configuration par défaut)
- Description de la configuration : Les commentaires dans la configuration WikipediaToxicitySubtypes proviennent d'une archive de commentaires de la page de discussion Wikipédia en anglais qui ont été annotés par Jigsaw pour la toxicité, ainsi que cinq étiquettes de sous-type de toxicité (toxicité sévère, obscène, menace, insulte, attaque_d'identité). Les étiquettes de toxicité et de sous-type de toxicité sont des valeurs binaires (0 ou 1) indiquant si la majorité des annotateurs ont attribué cet attribut au texte du commentaire. Cette configuration est une réplique des données publiées pour le Jigsaw Toxic Comment Classification Challenge sur Kaggle, avec l'ensemble de données de test joint aux test_labels publiés après la compétition, et les données de test non utilisées pour la notation supprimées.
Voir la documentation Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 pour plus de détails.
Page d' accueil : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Taille du jeu de données :
128.32 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 63 978 |
'train' | 159 571 |
- Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'identity_attack': float32,
'insult': float32,
'language': Text(shape=(), dtype=string),
'obscene': float32,
'severe_toxicity': float32,
'text': Text(shape=(), dtype=string),
'threat': float32,
'toxicity': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
attaque_d'identité | Tenseur | float32 | ||
insulte | Tenseur | float32 | ||
Langue | Texte | chaîne de caractères | ||
obscène | Tenseur | float32 | ||
toxicité_sévère | Tenseur | float32 | ||
texte | Texte | chaîne de caractères | ||
menace | Tenseur | float32 | ||
toxicité | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):
wikipedia_toxicity_subtypes/multilingue
- Description de la configuration : les commentaires dans la configuration WikipediaToxicityMultilingual ici proviennent d'une archive de commentaires de pages de discussion Wikipédia non anglophones annotés par Jigsaw pour la toxicité, avec une valeur binaire (0 ou 1) indiquant si la majorité des annotateurs ont évalué le texte du commentaire comme toxique. Les commentaires de cette configuration sont dans plusieurs langues différentes (turc, italien, espagnol, portugais, russe et français). Cette configuration est une réplique des données publiées pour la classification Jigsaw Multilingual Toxic Comment Classification sur Kaggle, avec l'ensemble de données de test joint aux test_labels publiés après la compétition.
Voir la documentation Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data pour plus de détails.
Page d' accueil : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Taille du jeu de données :
35.13 MiB
Fractionnements :
Diviser | Exemples |
---|---|
'test' | 63 812 |
'validation' | 8 000 |
- Structure des fonctionnalités :
FeaturesDict({
'id': Text(shape=(), dtype=string),
'language': Text(shape=(), dtype=string),
'text': Text(shape=(), dtype=string),
'toxicity': float32,
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
identifiant | Texte | chaîne de caractères | ||
Langue | Texte | chaîne de caractères | ||
texte | Texte | chaîne de caractères | ||
toxicité | Tenseur | float32 |
- Exemples ( tfds.as_dataframe ):