Conozca lo último en aprendizaje automático, IA generativa y más en el Simposio WiML 2023.

Se usó la API de Cloud Translation para traducir esta página.

comentarios_civiles

Descripción :

Esta versión del conjunto de datos de CivilComments brinda acceso a las siete etiquetas principales que fueron anotadas por trabajadores de la multitud, la toxicidad y otras etiquetas son un valor entre 0 y 1 que indica la fracción de anotadores que asignaron estos atributos al texto del comentario.

Las otras etiquetas solo están disponibles para una fracción de los ejemplos de entrada. Actualmente se ignoran para el conjunto de datos principal; el conjunto CivilCommentsIdentities incluye esas etiquetas, pero solo consiste en el subconjunto de los datos con ellas. Los demás atributos que formaban parte de la versión original de CivilComments se incluyen solo en los datos sin procesar. Consulte la documentación de Kaggle para obtener más detalles sobre las funciones disponibles.

Los comentarios en este conjunto de datos provienen de un archivo de la plataforma Civil Comments, un complemento de comentarios para sitios de noticias independientes. Estos comentarios públicos se crearon entre 2015 y 2017 y aparecieron en aproximadamente 50 sitios de noticias en inglés en todo el mundo. Cuando Civil Comments cerró en 2017, optaron por hacer que los comentarios públicos estuvieran disponibles en un archivo abierto duradero para permitir futuras investigaciones. Los datos originales, publicados en figshare, incluyen el texto del comentario público, algunos metadatos asociados, como ID de artículo, ID de publicación, marcas de tiempo y etiquetas de "civismo" generadas por los comentaristas, pero no incluyen ID de usuario. Jigsaw amplió este conjunto de datos agregando etiquetas adicionales para toxicidad, menciones de identidad, así como ofensividad encubierta. Este conjunto de datos es una réplica exacta de los datos publicados para el desafío Jigsaw Unintended Bias in Toxicity Classification Kaggle. Este conjunto de datos se publica bajo CC0, al igual que el texto del comentario subyacente.

Para los comentarios que tienen un parent_id también en los datos de comentarios civiles, el texto del comentario anterior se proporciona como la función "parent_text". Tenga en cuenta que las divisiones se realizaron sin tener en cuenta esta información, por lo que el uso de comentarios anteriores puede filtrar alguna información. Los anotadores no tenían acceso al texto principal al hacer las etiquetas.

Página de inicio : https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/data
Código fuente : tfds.text.CivilComments
Versiones :
- 1.0.0 : versión completa inicial.
- 1.0.1 : Se agregó una identificación única para cada comentario.
- 1.1.0 : Se agregó la configuración de CivilCommentsCovert.
- 1.1.1 : Se agregó la configuración de CivilCommentsCovert con la suma de verificación correcta.
- 1.1.2 : Se agregó una cita separada para el conjunto de datos de CivilCommentsCovert.
- 1.1.3 : Tipos de identificación corregidos de flotante a cadena.
- 1.2.0 : agregue funciones de texto de comentarios primarios, contexto y intervalos tóxicos.
- 1.2.1 : corrige el formato incorrecto en las divisiones de contexto.
- 1.2.2 : Actualización para reflejar el contexto que solo tiene una división de tren.
- 1.2.3 : Agregue una advertencia a CivilCommentsCovert mientras solucionamos un problema de datos.
- 1.2.4 (predeterminado): agregue ID de publicación y marcas de tiempo de comentarios.
Tamaño de la descarga : 427.41 MiB
Figura ( tfds.show_examples ): no compatible.

civil_comments/CivilComments (configuración predeterminada)

Descripción de la configuración : el conjunto de CivilComments aquí incluye todos los datos, pero solo las siete etiquetas básicas (toxicidad, toxicidad grave, obsceno, amenaza, insulto, ataque de identidad y sexual_explícito).
Tamaño del conjunto de datos : 1.54 GiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	97,320
`'train'`	1,804,874
`'validation'`	97,320

Estructura de características :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Documentación de características :

Característica	Clase	Tipo D
	CaracterísticasDict
ID del artículo	Tensor	int32
Fecha de creación	Tensor	cadena
identificación	Tensor	cadena
ataque_de_identidad	Tensor	flotar32
insulto	Tensor	flotar32
obsceno	Tensor	flotar32
Identificación de los padres	Tensor	int32
texto_principal	Texto	cadena
publicación_id	Tensor	cadena
toxicidad_severa	Tensor	flotar32
sexual_explícito	Tensor	flotar32
texto	Texto	cadena
amenaza	Tensor	flotar32
toxicidad	Tensor	flotar32

Claves supervisadas (Ver como_documento as_supervised ): ('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):

Cita :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

comentarios_civiles/CivilCommentsIdentities

Descripción de la configuración : el conjunto CivilCommentsIdentities aquí incluye un conjunto ampliado de etiquetas de identidad además de las siete etiquetas básicas. Sin embargo, solo incluye el subconjunto (aproximadamente una cuarta parte) de los datos con todas estas características.
Tamaño del conjunto de datos : 654.97 MiB
Almacenamiento automático en caché ( documentación ): No
Divisiones :

Dividir	Ejemplos
`'test'`	21,577
`'train'`	405,130
`'validation'`	21,293

Estructura de características :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'created_date': string,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

Documentación de características :

Característica	Clase	Tipo D
	CaracterísticasDict
ID del artículo	Tensor	int32
asiático	Tensor	flotar32
ateo	Tensor	flotar32
bisexual	Tensor	flotar32
negro	Tensor	flotar32
budista	Tensor	flotar32
cristiano	Tensor	flotar32
Fecha de creación	Tensor	cadena
femenino	Tensor	flotar32
heterosexual	Tensor	flotar32
hindú	Tensor	flotar32
homosexual_gay_o_lesbiana	Tensor	flotar32
identificación	Tensor	cadena
ataque_de_identidad	Tensor	flotar32
insulto	Tensor	flotar32
intelectual_o_discapacidad_de_aprendizaje	Tensor	flotar32
judío	Tensor	flotar32
latino	Tensor	flotar32
masculino	Tensor	flotar32
musulmán	Tensor	flotar32
obsceno	Tensor	flotar32
otra_discapacidad	Tensor	flotar32
otro_género	Tensor	flotar32
otra_raza_o_etnia	Tensor	flotar32
otra_religión	Tensor	flotar32
otra_orientación_sexual	Tensor	flotar32
Identificación de los padres	Tensor	int32
texto_principal	Texto	cadena
discapacidad física	Tensor	flotar32
enfermedad_psiquiatrica_o_mental	Tensor	flotar32
publicación_id	Tensor	cadena
toxicidad_severa	Tensor	flotar32
sexual_explícito	Tensor	flotar32
texto	Texto	cadena
amenaza	Tensor	flotar32
toxicidad	Tensor	flotar32
Transgénero	Tensor	flotar32
blanco	Tensor	flotar32

Claves supervisadas (Ver como_documento as_supervised ): ('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):

Cita :

@article{DBLP:journals/corr/abs-1903-04561,
  author    = {Daniel Borkan and
               Lucas Dixon and
               Jeffrey Sorensen and
               Nithum Thain and
               Lucy Vasserman},
  title     = {Nuanced Metrics for Measuring Unintended Bias with Real Data for Text
               Classification},
  journal   = {CoRR},
  volume    = {abs/1903.04561},
  year      = {2019},
  url       = {http://arxiv.org/abs/1903.04561},
  archivePrefix = {arXiv},
  eprint    = {1903.04561},
  timestamp = {Sun, 31 Mar 2019 19:01:24 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/abs-1903-04561},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

comentarios_civiles/ComentariosCivilesEncubiertos

Descripción de la configuración : ADVERTENCIA: hay un posible problema de calidad de datos con CivilCommentsCovert en el que estamos trabajando activamente para solucionarlo (28/06/22); los datos subyacentes pueden cambiar!

El conjunto CivilCommentsCovert es un subconjunto de CivilCommentsIdentities con ~20 % del tren y las divisiones de prueba más anotadas para ofensas encubiertas, además de las etiquetas de toxicidad e identidad. Se pidió a los evaluadores que clasificaran los comentarios como explícitamente, implícitamente, no, o no estoy seguro de si son ofensivos, así como si contenían diferentes tipos de ofensas encubiertas. El procedimiento de anotación completo se detalla en un documento próximo en https://sites.google.com/corp/view/hciandnlp/accepted-papers

Tamaño del conjunto de datos : 97.83 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Dividir	Ejemplos
`'test'`	2,455
`'train'`	48,074

Estructura de características :

FeaturesDict({
    'article_id': int32,
    'asian': float32,
    'atheist': float32,
    'bisexual': float32,
    'black': float32,
    'buddhist': float32,
    'christian': float32,
    'covert_emoticons_emojis': float32,
    'covert_humor': float32,
    'covert_masked_harm': float32,
    'covert_microaggression': float32,
    'covert_obfuscation': float32,
    'covert_political': float32,
    'covert_sarcasm': float32,
    'created_date': string,
    'explicitly_offensive': float32,
    'female': float32,
    'heterosexual': float32,
    'hindu': float32,
    'homosexual_gay_or_lesbian': float32,
    'id': string,
    'identity_attack': float32,
    'implicitly_offensive': float32,
    'insult': float32,
    'intellectual_or_learning_disability': float32,
    'jewish': float32,
    'latino': float32,
    'male': float32,
    'muslim': float32,
    'not_offensive': float32,
    'not_sure_offensive': float32,
    'obscene': float32,
    'other_disability': float32,
    'other_gender': float32,
    'other_race_or_ethnicity': float32,
    'other_religion': float32,
    'other_sexual_orientation': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'physical_disability': float32,
    'psychiatric_or_mental_illness': float32,
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
    'transgender': float32,
    'white': float32,
})

Documentación de características :

Característica	Clase	Tipo D
	CaracterísticasDict
ID del artículo	Tensor	int32
asiático	Tensor	flotar32
ateo	Tensor	flotar32
bisexual	Tensor	flotar32
negro	Tensor	flotar32
budista	Tensor	flotar32
cristiano	Tensor	flotar32
emoticonos_encubiertos	Tensor	flotar32
humor_encubierto	Tensor	flotar32
daño_enmascarado_encubierto	Tensor	flotar32
microagresión_encubierta	Tensor	flotar32
ofuscación encubierta	Tensor	flotar32
político_encubierto	Tensor	flotar32
encubierto_sarcasmo	Tensor	flotar32
Fecha de creación	Tensor	cadena
explícitamente_ofensivo	Tensor	flotar32
femenino	Tensor	flotar32
heterosexual	Tensor	flotar32
hindú	Tensor	flotar32
homosexual_gay_o_lesbiana	Tensor	flotar32
identificación	Tensor	cadena
ataque_de_identidad	Tensor	flotar32
implícitamente_ofensiva	Tensor	flotar32
insulto	Tensor	flotar32
intelectual_o_discapacidad_de_aprendizaje	Tensor	flotar32
judío	Tensor	flotar32
latino	Tensor	flotar32
masculino	Tensor	flotar32
musulmán	Tensor	flotar32
no_ofensivo	Tensor	flotar32
no_seguro_ofensivo	Tensor	flotar32
obsceno	Tensor	flotar32
otra_discapacidad	Tensor	flotar32
otro_género	Tensor	flotar32
otra_raza_o_etnia	Tensor	flotar32
otra_religión	Tensor	flotar32
otra_orientación_sexual	Tensor	flotar32
Identificación de los padres	Tensor	int32
texto_principal	Texto	cadena
discapacidad física	Tensor	flotar32
enfermedad_psiquiatrica_o_mental	Tensor	flotar32
publicación_id	Tensor	cadena
toxicidad_severa	Tensor	flotar32
sexual_explícito	Tensor	flotar32
texto	Texto	cadena
amenaza	Tensor	flotar32
toxicidad	Tensor	flotar32
Transgénero	Tensor	flotar32
blanco	Tensor	flotar32

Claves supervisadas (Ver como_documento as_supervised ): ('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{lees-etal-2021-capturing,
    title = "Capturing Covertly Toxic Speech via Crowdsourcing",
    author = "Lees, Alyssa  and
      Borkan, Daniel  and
      Kivlichan, Ian  and
      Nario, Jorge  and
      Goyal, Tesh",
    booktitle = "Proceedings of the First Workshop on Bridging Human{--}Computer Interaction and Natural Language Processing",
    month = apr,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2021.hcinlp-1.3",
    pages = "14--20"
}

comentarios_civiles/CivilCommentsToxicSpans

Descripción de la configuración : los intervalos tóxicos de CivilComments son un subconjunto de CivilComments que está etiquetado en el nivel de intervalo: los índices de todos los límites de caracteres (puntos de código Unicode) que fueron etiquetados como tóxicos por la mayoría de los anotadores se devuelven en una característica de 'intervalos'.
Tamaño del conjunto de datos : 5.81 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Dividir	Ejemplos
`'test'`	2,000
`'train'`	7,939
`'validation'`	682

Estructura de características :

FeaturesDict({
    'article_id': int32,
    'created_date': string,
    'id': string,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'spans': Tensor(shape=(None,), dtype=int32),
    'text': Text(shape=(), dtype=string),
})

Documentación de características :

Característica	Clase	Forma	Tipo D
	CaracterísticasDict
ID del artículo	Tensor		int32
Fecha de creación	Tensor		cadena
identificación	Tensor		cadena
Identificación de los padres	Tensor		int32
texto_principal	Texto		cadena
publicación_id	Tensor		cadena
se extiende	Tensor	(Ninguno,)	int32
texto	Texto		cadena

Claves supervisadas (ver as_supervised doc ): ('text', 'spans')
Ejemplos ( tfds.as_dataframe ):

Cita :

@inproceedings{pavlopoulos-etal-2021-semeval,
    title = "{S}em{E}val-2021 Task 5: Toxic Spans Detection",
    author = "Pavlopoulos, John  and Sorensen, Jeffrey  and Laugier, L{'e}o and Androutsopoulos, Ion",
    booktitle = "Proceedings of the 15th International Workshop on Semantic Evaluation (SemEval-2021)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.semeval-1.6",
    doi = "10.18653/v1/2021.semeval-1.6",
    pages = "59--69",
}

comentarios_civiles/CivilCommentsInContext

Descripción de la configuración : CivilComments in Context es un subconjunto de CivilComments que se etiquetó poniendo a disposición de los etiquetadores el texto principal. Incluye una característica contextual_toxicity.
Tamaño del conjunto de datos : 9.63 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :

Dividir	Ejemplos
`'train'`	9,969

Estructura de características :

FeaturesDict({
    'article_id': int32,
    'contextual_toxicity': float32,
    'created_date': string,
    'id': string,
    'identity_attack': float32,
    'insult': float32,
    'obscene': float32,
    'parent_id': int32,
    'parent_text': Text(shape=(), dtype=string),
    'publication_id': string,
    'severe_toxicity': float32,
    'sexual_explicit': float32,
    'text': Text(shape=(), dtype=string),
    'threat': float32,
    'toxicity': float32,
})

Documentación de características :

Característica	Clase	Tipo D
	CaracterísticasDict
ID del artículo	Tensor	int32
toxicidad_contextual	Tensor	flotar32
Fecha de creación	Tensor	cadena
identificación	Tensor	cadena
ataque_de_identidad	Tensor	flotar32
insulto	Tensor	flotar32
obsceno	Tensor	flotar32
Identificación de los padres	Tensor	int32
texto_principal	Texto	cadena
publicación_id	Tensor	cadena
toxicidad_severa	Tensor	flotar32
sexual_explícito	Tensor	flotar32
texto	Texto	cadena
amenaza	Tensor	flotar32
toxicidad	Tensor	flotar32

Claves supervisadas (Ver como_documento as_supervised ): ('text', 'toxicity')
Ejemplos ( tfds.as_dataframe ):

Cita :

@misc{pavlopoulos2020toxicity,
    title={Toxicity Detection: Does Context Really Matter?},
    author={John Pavlopoulos and Jeffrey Sorensen and Lucas Dixon and Nithum Thain and Ion Androutsopoulos},
    year={2020}, eprint={2006.00998}, archivePrefix={arXiv}, primaryClass={cs.CL}
}