wikipedia_toxicity_subtypes

Descriptif :

Les commentaires de cet ensemble de données proviennent d'une archive des commentaires de la page de discussion de Wikipédia. Ceux-ci ont été annotés par Jigsaw pour la toxicité, ainsi que (pour la configuration principale) une variété de sous-types de toxicité, y compris la toxicité sévère, l'obscénité, le langage menaçant, le langage insultant et les attaques d'identité. Cet ensemble de données est une réplique des données publiées pour le concours Jigsaw Toxic Comment Classification Challenge et Jigsaw Multilingual Toxic Comment Classification sur Kaggle, avec l'ensemble de données de test fusionné avec les test_labels publiés après la fin des compétitions. Les données de test non utilisées pour la notation ont été supprimées. Cet ensemble de données est publié sous CC0, tout comme le texte de commentaire sous-jacent.

Code source : tfds.text.WikipediaToxicitySubtypes
Versions :
- 0.2.0 : Fonctionnalités mises à jour pour assurer la cohérence avec l'ensemble de données CivilComments.
- 0.3.0 : Ajout de la configuration WikipediaToxicityMultilingual.
- 0.3.1 (par défaut) : Ajout d'un identifiant unique pour chaque commentaire. (Pour la configuration multilingue, ceux-ci ne sont uniques que dans chaque division.)
Taille du téléchargement : 50.57 MiB
Mise en cache automatique ( documentation ): Oui
Clés supervisées (Voir as_supervised doc ): ('text', 'toxicity')
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (configuration par défaut)

Description de la configuration : Les commentaires dans la configuration WikipediaToxicitySubtypes proviennent d'une archive de commentaires de la page de discussion Wikipédia en anglais qui ont été annotés par Jigsaw pour la toxicité, ainsi que cinq étiquettes de sous-type de toxicité (toxicité sévère, obscène, menace, insulte, attaque_d'identité). Les étiquettes de toxicité et de sous-type de toxicité sont des valeurs binaires (0 ou 1) indiquant si la majorité des annotateurs ont attribué cet attribut au texte du commentaire. Cette configuration est une réplique des données publiées pour le Jigsaw Toxic Comment Classification Challenge sur Kaggle, avec l'ensemble de données de test joint aux test_labels publiés après la compétition, et les données de test non utilisées pour la notation supprimées.

Voir la documentation Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data ou https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 pour plus de détails.

Page d' accueil : https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Taille du jeu de données : 128.32 MiB
Fractionnements :

Diviser	Exemples
`'test'`	63 978
`'train'`	159 571

Structure des fonctionnalités :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
identifiant	Texte	chaîne de caractères
attaque_d'identité	Tenseur	float32
insulte	Tenseur	float32
Langue	Texte	chaîne de caractères
obscène	Tenseur	float32
toxicité_sévère	Tenseur	float32
texte	Texte	chaîne de caractères
menace	Tenseur	float32
toxicité	Tenseur	float32

Exemples ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/multilingue

Description de la configuration : les commentaires dans la configuration WikipediaToxicityMultilingual ici proviennent d'une archive de commentaires de pages de discussion Wikipédia non anglophones annotés par Jigsaw pour la toxicité, avec une valeur binaire (0 ou 1) indiquant si la majorité des annotateurs ont évalué le texte du commentaire comme toxique. Les commentaires de cette configuration sont dans plusieurs langues différentes (turc, italien, espagnol, portugais, russe et français). Cette configuration est une réplique des données publiées pour la classification Jigsaw Multilingual Toxic Comment Classification sur Kaggle, avec l'ensemble de données de test joint aux test_labels publiés après la compétition.

Voir la documentation Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data pour plus de détails.

Page d' accueil : https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Taille du jeu de données : 35.13 MiB
Fractionnements :

Diviser	Exemples
`'test'`	63 812
`'validation'`	8 000

Structure des fonctionnalités :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

Documentation des fonctionnalités :

Caractéristique	Classer	Dtype
	FonctionnalitésDict
identifiant	Texte	chaîne de caractères
Langue	Texte	chaîne de caractères
texte	Texte	chaîne de caractères
toxicité	Tenseur	float32

Exemples ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

wikipedia_toxicity_subtypes/EnglishSubtypes (configuration par défaut)

wikipedia_toxicity_subtypes/multilingue

wikipedia_toxicity_subtypes