Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

comentarios_civiles

  • Descripción:

Esta versión del conjunto de datos de CivilComments proporciona acceso a las siete etiquetas principales que fueron anotadas por los trabajadores de la multitud, la toxicidad y otras etiquetas son un valor entre 0 y 1 que indica la fracción de anotadores que asignaron estos atributos al texto del comentario.

Las otras etiquetas solo están disponibles para una fracción de los ejemplos de entrada. Actualmente se ignoran para el conjunto de datos principal; el conjunto CivilCommentsIdentities incluye esas etiquetas, pero solo consta del subconjunto de datos con ellas. Los otros atributos que formaban parte de la versión original de CivilComments se incluyen solo en los datos sin procesar. Consulte la documentación de Kaggle para obtener más detalles sobre las funciones disponibles.

Los comentarios en este conjunto de datos provienen de un archivo de la plataforma Civil Comments, un complemento de comentarios para sitios de noticias independientes. Estos comentarios públicos se crearon entre 2015 y 2017 y aparecieron en aproximadamente 50 sitios de noticias en inglés en todo el mundo. Cuando Civil Comments cerró en 2017, optaron por hacer que los comentarios públicos estuvieran disponibles en un archivo abierto duradero para permitir futuras investigaciones. Los datos originales, publicados en figshare, incluyen el texto del comentario público, algunos metadatos asociados como ID de artículos, marcas de tiempo y etiquetas de "civilidad" generadas por comentaristas, pero no incluyen ID de usuario. Jigsaw amplió este conjunto de datos agregando etiquetas adicionales para la toxicidad, las menciones de identidad y la ofensiva encubierta. Este conjunto de datos es una réplica exacta de los datos publicados para el desafío Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

  • Inicio: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • El código fuente: tfds.text.CivilComments

  • versiones:

    • 1.0.0 : liberación total inicial.
    • 1.0.1 : Se ha añadido un identificador único para cada comentario.
    • 1.1.0 : Agregado CivilCommentsCovert config.
    • 1.1.1 : config Agregado CivilCommentsCovert con la suma de comprobación correcta.
    • 1.1.2 : Se ha añadido la cita por separado para CivilCommentsCovert conjunto de datos.
    • 1.1.3 (por defecto) : Se ha corregido tipos de ID de flotador para cadena.
  • Tamaño del paquete: 397.83 MiB

  • Claves supervisadas (Ver as_supervised doc ): ('text', 'toxicity')

  • Figura ( tfds.show_examples ): No soportado.

civil_comments / CivilComments (configuración predeterminada)

  • Descripción config: Los CivilComments establecidos aquí incluye todos los datos, pero sólo las básicas siete etiquetas (toxicidad, severe_toxicity, obsceno, amenaza, insulto, identity_attack y sexual_explicit).

  • Conjunto de datos de tamaño: 964.77 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • características:
FeaturesDict({
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Cita:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilCommentsIdentities

  • Descripción config: Los CivilCommentsIdentities establecidos aquí incluye un conjunto extendido de etiquetas de identidad, además de los siete etiquetas básicas. Sin embargo, solo incluye el subconjunto (aproximadamente una cuarta parte) de los datos con todas estas características.

  • Conjunto de datos de tamaño: 511.32 MiB

  • Auto-caché ( documentación ): No

  • Fraccionamientos:

Separar Ejemplos de
'test' 21,577
'train' 405,130
'validation' 21.293
  • características:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Cita:
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

civil_comments / CivilCommentsCovert

  • Descripción Config: El conjunto CivilCommentsCovert es un subconjunto de CivilCommentsIdentities con ~ 20% de las fracturas de tren y de prueba anotado adicionalmente durante carácter ofensivo encubierta, además de las etiquetas de toxicidad y de identidad. Se pidió a los evaluadores que categorizaran los comentarios como explícita, implícitamente, no o no estaban seguros de si eran ofensivos, así como si contenían diferentes tipos de ofensivas encubiertas. La anotación procedimiento completo se detalla en un próximo documento en https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Conjunto de datos de tamaño: 79.74 MiB

  • Auto-caché ( documentación ): Sí

  • Fraccionamientos:

Separar Ejemplos de
'test' 2,455
'train' 48,074
  • características:
FeaturesDict({
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Cita:
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}