wikipedia_toxicidad_subtipos

Descripción :

Los comentarios en este conjunto de datos provienen de un archivo de comentarios de la página de discusión de Wikipedia. Estos han sido anotados por Jigsaw por toxicidad, así como (para la configuración principal) una variedad de subtipos de toxicidad, que incluyen toxicidad severa, obscenidad, lenguaje amenazante, lenguaje insultante y ataques de identidad. Este conjunto de datos es una réplica de los datos publicados para el desafío de clasificación de comentarios tóxicos de Jigsaw y la competencia de clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba fusionado con las etiquetas de prueba publicadas después del final de las competencias. Se eliminaron los datos de prueba que no se usaron para calificar. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

Código fuente : tfds.text.WikipediaToxicitySubtypes
Versiones :
- 0.2.0 : funciones actualizadas para mantener la coherencia con el conjunto de datos de CivilComments.
- 0.3.0 : Se agregó WikipediaToxicidadConfiguración multilingüe.
- 0.3.1 (predeterminado): Se agregó una identificación única para cada comentario. (Para la configuración multilingüe, estos solo son únicos dentro de cada división).
Tamaño de la descarga : 50.57 MiB
Almacenamiento automático en caché ( documentación ): Sí
Claves supervisadas (Ver as_supervised ): ('text', 'toxicity')
Figura ( tfds.show_examples ): no compatible.
Cita :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (configuración predeterminada)

Descripción de la configuración : los comentarios en la configuración de WikipediaToxicitySubtypes provienen de un archivo de comentarios de la página de discusión de Wikipedia en inglés que han sido anotados por Jigsaw para toxicidad, así como cinco etiquetas de subtipo de toxicidad (toxicidad severa, obscena, amenaza, insulto, identidad_ataque). Las etiquetas de toxicidad y subtipo de toxicidad son valores binarios (0 o 1) que indican si la mayoría de los anotadores asignaron ese atributo al texto del comentario. Esta configuración es una réplica de los datos publicados para el Desafío de clasificación de comentarios tóxicos de Jigsaw en Kaggle, con el conjunto de datos de prueba unido a las etiquetas de prueba publicadas después de la competencia, y los datos de prueba que no se usaron para puntuar se eliminaron.

Consulte la documentación de Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data o https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para obtener más detalles.

Página de inicio: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data
Tamaño del conjunto de datos : 128.32 MiB
Divisiones :

Separar	Ejemplos
`'test'`	63,978
`'train'`	159,571

Estructura de características :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
identificación	Texto	cuerda
ataque_de_identidad	Tensor	flotar32
insulto	Tensor	flotar32
idioma	Texto	cuerda
obsceno	Tensor	flotar32
toxicidad_severa	Tensor	flotar32
texto	Texto	cuerda
amenaza	Tensor	flotar32
toxicidad	Tensor	flotar32

Ejemplos ( tfds.as_dataframe ):

wikipedia_toxicity_subtypes/Multilingüe

Descripción de la configuración : los comentarios en la configuración WikipediaToxicityMultilingual aquí son de un archivo de comentarios de la página de discusión de Wikipedia que no están en inglés anotados por Jigsaw para toxicidad, con un valor binario (0 o 1) que indica si la mayoría de los anotadores calificaron el texto del comentario como tóxico. Los comentarios en esta configuración están en varios idiomas diferentes (turco, italiano, español, portugués, ruso y francés). Esta configuración es una réplica de los datos publicados para la clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba junto con las etiquetas de prueba publicadas después de la competencia.

Consulte la documentación de Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para obtener más detalles.

Página de inicio: https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data
Tamaño del conjunto de datos : 35.13 MiB
Divisiones :

Separar	Ejemplos
`'test'`	63,812
`'validation'`	8,000

Estructura de características :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})

Documentación de características :

Rasgo	Clase	Tipo D
	CaracterísticasDict
identificación	Texto	cuerda
idioma	Texto	cuerda
texto	Texto	cuerda
toxicidad	Tensor	flotar32

Ejemplos ( tfds.as_dataframe ):