comentarios_civiles

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

  • Descripción :

Esta versión del conjunto de datos de CivilComments brinda acceso a las siete etiquetas principales que fueron anotadas por trabajadores de la multitud, la toxicidad y otras etiquetas son un valor entre 0 y 1 que indica la fracción de anotadores que asignaron estos atributos al texto del comentario.

Las otras etiquetas solo están disponibles para una fracción de los ejemplos de entrada. Actualmente se ignoran para el conjunto de datos principal; el conjunto CivilCommentsIdentities incluye esas etiquetas, pero solo consiste en el subconjunto de los datos con ellas. Los demás atributos que formaban parte de la versión original de CivilComments se incluyen solo en los datos sin procesar. Consulte la documentación de Kaggle para obtener más detalles sobre las funciones disponibles.

Los comentarios en este conjunto de datos provienen de un archivo de la plataforma Civil Comments, un complemento de comentarios para sitios de noticias independientes. Estos comentarios públicos se crearon entre 2015 y 2017 y aparecieron en aproximadamente 50 sitios de noticias en inglés en todo el mundo. Cuando Civil Comments cerró en 2017, optaron por hacer que los comentarios públicos estuvieran disponibles en un archivo abierto duradero para permitir futuras investigaciones. Los datos originales, publicados en figshare, incluyen el texto del comentario público, algunos metadatos asociados, como los ID de los artículos, las marcas de tiempo y las etiquetas de "civismo" generadas por los comentaristas, pero no incluyen los ID de los usuarios. Jigsaw amplió este conjunto de datos agregando etiquetas adicionales para toxicidad, menciones de identidad, así como ofensividad encubierta. Este conjunto de datos es una réplica exacta de los datos publicados para el desafío Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

Para los comentarios que tienen un parent_id también en los datos de comentarios civiles, el texto del comentario anterior se proporciona como la función "parent_text". Tenga en cuenta que las divisiones se realizaron sin tener en cuenta esta información, por lo que el uso de comentarios anteriores puede filtrar alguna información. Los anotadores no tenían acceso al texto principal al hacer las etiquetas.

  • Página de inicio: https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data

  • Código fuente : tfds.text.CivilComments

  • Versiones :

    • 1.0.0 : versión completa inicial.
    • 1.0.1 : Se agregó una identificación única para cada comentario.
    • 1.1.0 : Se agregó la configuración de CivilCommentsCovert.
    • 1.1.1 : Se agregó la configuración de CivilCommentsCovert con la suma de verificación correcta.
    • 1.1.2 : Se agregó una cita separada para el conjunto de datos de CivilCommentsCovert.
    • 1.1.3 : Tipos de identificación corregidos de flotante a cadena.
    • 1.2.0 : agregue funciones de texto de comentarios primarios, contexto y intervalos tóxicos.
    • 1.2.1 : corrige el formato incorrecto en las divisiones de contexto.
    • 1.2.2 : Actualización para reflejar el contexto que solo tiene una división de tren.
    • 1.2.3 (predeterminado) : agregue una advertencia a CivilCommentsCovert mientras solucionamos un problema de datos.
  • Tamaño de la descarga : 427.41 MiB

  • Figura ( tfds.show_examples ): no compatible.

civil_comments/CivilComments (configuración predeterminada)

  • Descripción de la configuración : el conjunto de CivilComments aquí incluye todos los datos, pero solo las siete etiquetas básicas (toxicidad, toxicidad grave, obsceno, amenaza, insulto, ataque de identidad y sexual_explícito).

  • Tamaño del conjunto de datos : 1.39 GiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'test' 97,320
'train' 1,804,874
'validation' 97,320
  • Estructura de características :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor tf.int32
identificación Tensor tf.cadena
ataque_de_identidad Tensor tf.float32
insulto Tensor tf.float32
obsceno Tensor tf.float32
Identificación de los padres Tensor tf.int32
texto_principal Texto tf.cadena
toxicidad_severa Tensor tf.float32
sexual_explícito Tensor tf.float32
texto Texto tf.cadena
amenaza Tensor tf.float32
toxicidad Tensor tf.float32
  • Cita :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

comentarios_civiles/CivilCommentsIdentities

  • Descripción de la configuración : el conjunto CivilCommentsIdentities aquí incluye un conjunto ampliado de etiquetas de identidad además de las siete etiquetas básicas. Sin embargo, solo incluye el subconjunto (aproximadamente una cuarta parte) de los datos con todas estas características.

  • Tamaño del conjunto de datos : 622.02 MiB

  • Almacenamiento automático en caché ( documentación ): No

  • Divisiones :

Separar Ejemplos
'test' 21,577
'train' 405,130
'validation' 21,293
  • Estructura de características :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor tf.int32
asiático Tensor tf.float32
ateo Tensor tf.float32
bisexual Tensor tf.float32
negro Tensor tf.float32
budista Tensor tf.float32
cristiano Tensor tf.float32
femenino Tensor tf.float32
heterosexual Tensor tf.float32
hindú Tensor tf.float32
homosexual_gay_o_lesbiana Tensor tf.float32
identificación Tensor tf.cadena
ataque_de_identidad Tensor tf.float32
insulto Tensor tf.float32
intelectual_o_discapacidad_de_aprendizaje Tensor tf.float32
judío Tensor tf.float32
latino Tensor tf.float32
masculino Tensor tf.float32
musulmán Tensor tf.float32
obsceno Tensor tf.float32
otra_discapacidad Tensor tf.float32
otro_género Tensor tf.float32
otra_raza_o_etnia Tensor tf.float32
otra_religión Tensor tf.float32
otra_orientación_sexual Tensor tf.float32
Identificación de los padres Tensor tf.int32
texto_principal Texto tf.cadena
discapacidad física Tensor tf.float32
enfermedad_psiquiatrica_o_mental Tensor tf.float32
toxicidad_severa Tensor tf.float32
sexual_explícito Tensor tf.float32
texto Texto tf.cadena
amenaza Tensor tf.float32
toxicidad Tensor tf.float32
Transgénero Tensor tf.float32
blanco Tensor tf.float32
  • Cita :
@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

comentarios_civiles/ComentariosCivilesEncubiertos

  • Descripción de la configuración : ADVERTENCIA: hay un posible problema de calidad de datos con CivilCommentsCovert en el que estamos trabajando activamente para solucionarlo (28/06/22); los datos subyacentes pueden cambiar!

El conjunto CivilCommentsCovert es un subconjunto de CivilCommentsIdentities con ~20 % del tren y las divisiones de prueba más anotadas para ofensas encubiertas, además de las etiquetas de toxicidad e identidad. Se pidió a los evaluadores que clasificaran los comentarios como explícitamente, implícitamente, no, o no estoy seguro de si son ofensivos, así como si contenían diferentes tipos de ofensas encubiertas. El procedimiento de anotación completo se detalla en un documento próximo en https://sites.google.com/corp/view/hciandnlp/accepted-papers

  • Tamaño del conjunto de datos : 94.12 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 2,455
'train' 48,074
  • Estructura de características :
FeaturesDict({
    'article_id': tf.int32,
    'asian': tf.float32,
    'atheist': tf.float32,
    'bisexual': tf.float32,
    'black': tf.float32,
    'buddhist': tf.float32,
    'christian': tf.float32,
    'covert_emoticons_emojis': tf.float32,
    'covert_humor': tf.float32,
    'covert_masked_harm': tf.float32,
    'covert_microaggression': tf.float32,
    'covert_obfuscation': tf.float32,
    'covert_political': tf.float32,
    'covert_sarcasm': tf.float32,
    'explicitly_offensive': tf.float32,
    'female': tf.float32,
    'heterosexual': tf.float32,
    'hindu': tf.float32,
    'homosexual_gay_or_lesbian': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'implicitly_offensive': tf.float32,
    'insult': tf.float32,
    'intellectual_or_learning_disability': tf.float32,
    'jewish': tf.float32,
    'latino': tf.float32,
    'male': tf.float32,
    'muslim': tf.float32,
    'not_offensive': tf.float32,
    'not_sure_offensive': tf.float32,
    'obscene': tf.float32,
    'other_disability': tf.float32,
    'other_gender': tf.float32,
    'other_race_or_ethnicity': tf.float32,
    'other_religion': tf.float32,
    'other_sexual_orientation': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'physical_disability': tf.float32,
    'psychiatric_or_mental_illness': tf.float32,
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
    'transgender': tf.float32,
    'white': tf.float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor tf.int32
asiático Tensor tf.float32
ateo Tensor tf.float32
bisexual Tensor tf.float32
negro Tensor tf.float32
budista Tensor tf.float32
cristiano Tensor tf.float32
emoticonos_encubiertos Tensor tf.float32
humor_encubierto Tensor tf.float32
daño_enmascarado_encubierto Tensor tf.float32
microagresión_encubierta Tensor tf.float32
ofuscación encubierta Tensor tf.float32
político_encubierto Tensor tf.float32
encubierto_sarcasmo Tensor tf.float32
explícitamente_ofensivo Tensor tf.float32
femenino Tensor tf.float32
heterosexual Tensor tf.float32
hindú Tensor tf.float32
homosexual_gay_o_lesbiana Tensor tf.float32
identificación Tensor tf.cadena
ataque_de_identidad Tensor tf.float32
implícitamente_ofensiva Tensor tf.float32
insulto Tensor tf.float32
intelectual_o_discapacidad_de_aprendizaje Tensor tf.float32
judío Tensor tf.float32
latino Tensor tf.float32
masculino Tensor tf.float32
musulmán Tensor tf.float32
no_ofensivo Tensor tf.float32
no_seguro_ofensivo Tensor tf.float32
obsceno Tensor tf.float32
otra_discapacidad Tensor tf.float32
otro_género Tensor tf.float32
otra_raza_o_etnia Tensor tf.float32
otra_religión Tensor tf.float32
otra_orientación_sexual Tensor tf.float32
Identificación de los padres Tensor tf.int32
texto_principal Texto tf.cadena
discapacidad física Tensor tf.float32
enfermedad_psiquiatrica_o_mental Tensor tf.float32
toxicidad_severa Tensor tf.float32
sexual_explícito Tensor tf.float32
texto Texto tf.cadena
amenaza Tensor tf.float32
toxicidad Tensor tf.float32
Transgénero Tensor tf.float32
blanco Tensor tf.float32
  • Cita :
@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

comentarios_civiles/CivilCommentsToxicSpans

  • Descripción de la configuración : los intervalos tóxicos de CivilComments son un subconjunto de CivilComments que está etiquetado en el nivel de intervalo: los índices de todos los límites de caracteres (puntos de código Unicode) que fueron etiquetados como tóxicos por la mayoría de los anotadores se devuelven en una característica de 'intervalos'.

  • Tamaño del conjunto de datos : 5.03 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 2,000
'train' 7,939
'validation' 682
  • Estructura de características :
FeaturesDict({
    'article_id': tf.int32,
    'id': tf.string,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'spans': Tensor(shape=(None,), dtype=tf.int32),
    'text': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor tf.int32
identificación Tensor tf.cadena
Identificación de los padres Tensor tf.int32
texto_principal Texto tf.cadena
se extiende Tensor (Ninguna,) tf.int32
texto Texto tf.cadena
  • Cita :
@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

comentarios_civiles/CivilCommentsInContext

  • Descripción de la configuración : CivilComments in Context es un subconjunto de CivilComments que se etiquetó poniendo a disposición de los etiquetadores el texto principal. Incluye una característica contextual_toxicity.

  • Tamaño del conjunto de datos : 8.90 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 9,969
  • Estructura de características :
FeaturesDict({
    'article_id': tf.int32,
    'contextual_toxicity': tf.float32,
    'id': tf.string,
    'identity_attack': tf.float32,
    'insult': tf.float32,
    'obscene': tf.float32,
    'parent_id': tf.int32,
    'parent_text': Text(shape=(), dtype=tf.string),
    'severe_toxicity': tf.float32,
    'sexual_explicit': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
    'threat': tf.float32,
    'toxicity': tf.float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
ID del artículo Tensor tf.int32
toxicidad_contextual Tensor tf.float32
identificación Tensor tf.cadena
ataque_de_identidad Tensor tf.float32
insulto Tensor tf.float32
obsceno Tensor tf.float32
Identificación de los padres Tensor tf.int32
texto_principal Texto tf.cadena
toxicidad_severa Tensor tf.float32
sexual_explícito Tensor tf.float32
texto Texto tf.cadena
amenaza Tensor tf.float32
toxicidad Tensor tf.float32
  • Cita :
@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}