wikipedia_toxicidad_subtipos

  • Descripción :

Los comentarios en este conjunto de datos provienen de un archivo de comentarios de la página de discusión de Wikipedia. Estos han sido anotados por Jigsaw por toxicidad, así como (para la configuración principal) una variedad de subtipos de toxicidad, que incluyen toxicidad severa, obscenidad, lenguaje amenazante, lenguaje insultante y ataques de identidad. Este conjunto de datos es una réplica de los datos publicados para el desafío de clasificación de comentarios tóxicos de Jigsaw y la competencia de clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba fusionado con las etiquetas de prueba publicadas después del final de las competencias. Se eliminaron los datos de prueba que no se usaron para calificar. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

  • Código fuente : tfds.text.WikipediaToxicitySubtypes

  • Versiones :

    • 0.2.0 : funciones actualizadas para mantener la coherencia con el conjunto de datos de CivilComments.
    • 0.3.0 : Se agregó WikipediaToxicidadConfiguración multilingüe.
    • 0.3.1 (predeterminado): Se agregó una identificación única para cada comentario. (Para la configuración multilingüe, estos solo son únicos dentro de cada división).
  • Tamaño de la descarga : 50.57 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Claves supervisadas (Ver as_supervised ): ('text', 'toxicity')

  • Figura ( tfds.show_examples ): no compatible.

  • Cita :

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes/EnglishSubtypes (configuración predeterminada)

  • Descripción de la configuración : los comentarios en la configuración de WikipediaToxicitySubtypes provienen de un archivo de comentarios de la página de discusión de Wikipedia en inglés que han sido anotados por Jigsaw para toxicidad, así como cinco etiquetas de subtipo de toxicidad (toxicidad severa, obscena, amenaza, insulto, identidad_ataque). Las etiquetas de toxicidad y subtipo de toxicidad son valores binarios (0 o 1) que indican si la mayoría de los anotadores asignaron ese atributo al texto del comentario. Esta configuración es una réplica de los datos publicados para el Desafío de clasificación de comentarios tóxicos de Jigsaw en Kaggle, con el conjunto de datos de prueba unido a las etiquetas de prueba publicadas después de la competencia, y los datos de prueba que no se usaron para puntuar se eliminaron.

Consulte la documentación de Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data o https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para obtener más detalles.

Separar Ejemplos
'test' 63,978
'train' 159,571
  • Estructura de características :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'identity_attack': float32,
    'insult': float32,
    'language': Text(shape=(), dtype=string),
    'obscene': float32,
    'severe_toxicity': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Texto cuerda
ataque_de_identidad Tensor flotar32
insulto Tensor flotar32
idioma Texto cuerda
obsceno Tensor flotar32
toxicidad_severa Tensor flotar32
texto Texto cuerda
amenaza Tensor flotar32
toxicidad Tensor flotar32

wikipedia_toxicity_subtypes/Multilingüe

  • Descripción de la configuración : los comentarios en la configuración WikipediaToxicityMultilingual aquí son de un archivo de comentarios de la página de discusión de Wikipedia que no están en inglés anotados por Jigsaw para toxicidad, con un valor binario (0 o 1) que indica si la mayoría de los anotadores calificaron el texto del comentario como tóxico. Los comentarios en esta configuración están en varios idiomas diferentes (turco, italiano, español, portugués, ruso y francés). Esta configuración es una réplica de los datos publicados para la clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba junto con las etiquetas de prueba publicadas después de la competencia.

Consulte la documentación de Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para obtener más detalles.

Separar Ejemplos
'test' 63,812
'validation' 8,000
  • Estructura de características :
FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'language': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'toxicity': float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Texto cuerda
idioma Texto cuerda
texto Texto cuerda
toxicidad Tensor flotar32