Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

wikipedia_toxicidad_subtipos

  • Descripción:

Los comentarios en este conjunto de datos provienen de un archivo de comentarios de la página de discusión de Wikipedia. Estos han sido anotados por Jigsaw por toxicidad, así como (para la configuración principal) una variedad de subtipos de toxicidad, que incluyen toxicidad severa, obscenidad, lenguaje amenazante, lenguaje insultante y ataques de identidad. Este conjunto de datos es una réplica de los datos publicados para el desafío de clasificación de comentarios tóxicos de Jigsaw y la competencia de clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba combinado con las etiquetas de prueba publicadas después del final de las competencias. Se han eliminado los datos de prueba que no se utilizaron para la puntuación. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

  • El código fuente: tfds.text.WikipediaToxicitySubtypes

  • versiones:

    • 0.2.0 : características actualizadas para la consistencia con CivilComments conjunto de datos.
    • 0.3.0 : Agregado WikipediaToxicityMultilingual config.
    • 0.3.1 (por defecto): Se ha añadido un identificador único para cada comentario. (Para la configuración multilingüe, estos son únicos dentro de cada división).
  • Tamaño del paquete: 50.57 MiB

  • Auto-caché ( documentación ): Sí

  • Claves supervisadas (Ver as_supervised doc ): ('text', 'toxicity')

  • Figura ( tfds.show_examples ): No soportado.

  • Cita:

@inproceedings{10.1145/3038912.3052591,
  author = {Wulczyn, Ellery and Thain, Nithum and Dixon, Lucas},
  title = {Ex Machina: Personal Attacks Seen at Scale},
  year = {2017},
  isbn = {9781450349130},
  publisher = {International World Wide Web Conferences Steering Committee},
  address = {Republic and Canton of Geneva, CHE},
  url = {https://doi.org/10.1145/3038912.3052591},
  doi = {10.1145/3038912.3052591},
  booktitle = {Proceedings of the 26th International Conference on World Wide Web},
  pages = {1391-1399},
  numpages = {9},
  keywords = {online discussions, wikipedia, online harassment},
  location = {Perth, Australia},
  series = {WWW '17}
}

wikipedia_toxicity_subtypes / EnglishSubtypes (por defecto config)

  • Descripción config: Los comentarios en las WikipediaToxicitySubtypes de configuración son de un archivo de Inglés Wikipedia Discusión comentarios que se han anotado por los rompecabezas por toxicidad, así como etiquetas de cinco subtipos de toxicidad (toxicidad severa, obsceno, amenaza, insulto, identity_attack). Las etiquetas de toxicidad y subtipo de toxicidad son valores binarios (0 o 1) que indican si la mayoría de los anotadores asignaron ese atributo al texto del comentario. Esta configuración es una réplica de los datos publicados para el Desafío de clasificación de comentarios tóxicos de Jigsaw en Kaggle, con el conjunto de datos de prueba unido a las etiquetas de prueba publicadas después de la competencia y los datos de prueba no utilizados para la puntuación eliminados.

Consulte la documentación Kaggle https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge/data o https://figshare.com/articles/Wikipedia_Talk_Labels_Toxicity/4563973 para más detalles.

Separar Ejemplos de
'test' 63,978
'train' 159,571
  • características:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'language': Text(shape=(), dtype=tf.string),
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})

wikipedia_toxicity_subtypes / multilingüe

  • Descripción config: Los comentarios en el WikipediaToxicityMultilingual config aquí son de un archivo de la no-Inglés Wikipedia Discusión comentarios anotados por los rompecabezas por toxicidad, con un valor binario (0 ó 1) que indica si la mayoría de los anotadores calificó el comentario de texto como tóxicos. Los comentarios en esta configuración están en varios idiomas diferentes (turco, italiano, español, portugués, ruso y francés). Esta configuración es una réplica de los datos publicados para la Clasificación de comentarios tóxicos multilingües de Jigsaw en Kaggle, con el conjunto de datos de prueba unido a los test_labels publicados después de la competencia.

Consulte la documentación Kaggle https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/data para más detalles.

Separar Ejemplos de
'test' 63,812
'validation' 8.000
  • características:
FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'language': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'toxicity': tf.float32,
})