dados

Descripción :

El conjunto de datos de diversidad en la evaluación de la seguridad de la IA conversacional ( DICES )

Los enfoques de aprendizaje automático a menudo se entrenan y evalúan con conjuntos de datos que requieren una separación clara entre ejemplos positivos y negativos. Este enfoque simplifica demasiado la subjetividad natural presente en muchas tareas y elementos de contenido. También oscurece la diversidad inherente a las percepciones y opiniones humanas. A menudo, las tareas que intentan preservar la variación en el contenido y la diversidad de los seres humanos son bastante costosas y laboriosas. Para llenar este vacío y facilitar análisis más profundos del rendimiento del modelo, proponemos el conjunto de datos DICES, un conjunto de datos único con diversas perspectivas sobre la seguridad de las conversaciones generadas por IA. Nos centramos en la tarea de evaluación de la seguridad de los sistemas de IA conversacionales. El conjunto de datos DICES contiene información demográfica detallada sobre cada evaluador, una replicación extremadamente alta de calificaciones únicas por conversación para garantizar la importancia estadística de análisis adicionales y codifica los votos de los evaluadores como distribuciones entre diferentes datos demográficos para permitir exploraciones en profundidad de diferentes estrategias de agregación de calificaciones.

Este conjunto de datos es muy adecuado para observar y medir la variación, la ambigüedad y la diversidad en el contexto de la seguridad de la IA conversacional. El conjunto de datos va acompañado de un artículo que describe un conjunto de métricas que muestran cómo la diversidad de los evaluadores influye en la percepción de seguridad de los evaluadores de diferentes regiones geográficas, grupos étnicos, grupos de edad y géneros. El objetivo del conjunto de datos DICES es utilizarse como punto de referencia compartido para la evaluación de la seguridad de los sistemas de IA conversacionales.

ADVERTENCIA DE CONTENIDO : este conjunto de datos contiene ejemplos conflictivos de conversaciones que pueden resultar ofensivas.

Página de inicio : https://github.com/google-research-datasets/dices-dataset
Código fuente : tfds.datasets.dices.Builder
Versiones :
- 1.0.0 (predeterminado): versión inicial.
Claves supervisadas (ver documento as_supervised ): None
Figura ( tfds.show_examples ): no compatible.
Citación :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dados/350 (configuración predeterminada)

Descripción de la configuración : el conjunto de datos 350 contiene 350 conversaciones calificadas por un grupo diverso de evaluadores de 123 evaluadores únicos. Cada conversación se califica con cinco categorías de seguridad de alto nivel y una pregunta de comprensión general de la conversación. Los evaluadores reclutados se equilibraron por género (hombre o mujer), raza/etnia (blanco, negro, latino, asiático, multirracial) y cada evaluador calificó todos los elementos. Cada evaluador calificó todas las conversaciones. Cada conversación tiene 123 calificaciones únicas. El número total de filas en este conjunto de datos es 43050.
Tamaño de descarga : 29.70 MiB
Tamaño del conjunto de datos : 74.43 MiB
Almacenamiento en caché automático ( documentación ): Sí
Divisiones :

Dividir	Ejemplos
`'train'`	43.050

Estructura de características :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D	Descripción
	FuncionesDict
Q1_evaluación_conversación_completa	Etiqueta de clase		int64	Calificación sobre la comprensibilidad de una conversación.
Q2_contenido_dañino_contenido_peligroso	Etiqueta de clase		int64
Q2_contenido_dañino_derogación_del_barco	Etiqueta de clase		int64
Q2_contenido_dañino_insensible	Etiqueta de clase		int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice	Etiqueta de clase		int64
Q2_contenido_dañino_obsceno_y_profano	Etiqueta de clase		int64
Q2_contenido_dañino_otro	Etiqueta de clase		int64
Q2_harmful_content_overall	Etiqueta de clase		int64
Q2_contenido_dañino_información_personal	Etiqueta de clase		int64
Q2_bienes_regulados_contenido_dañino	Etiqueta de clase		int64
Q2_contenido_dañino_contenido_sexualmente_sugestivo	Etiqueta de clase		int64
Q3_sesgo_otro	Etiqueta de clase		int64
Q3_bias_overall	Etiqueta de clase		int64
Q3_bias_targeting_creencias	Etiqueta de clase		int64
Q3_bias_targeting_gender_sexual_orientation	Etiqueta de clase		int64
Q3_bias_targeting_atributos_heredados	Etiqueta de clase		int64
Q3_bias_targeting_status	Etiqueta de clase		int64
Q4_desinformación	Etiqueta de clase		int64
Q5_afiliación_política	Etiqueta de clase		int64
Q6_policy_guidelines_making_endorsement	Etiqueta de clase		int64
Q6_policy_guidelines_other	Etiqueta de clase		int64
Q6_policy_guidelines_overall	Etiqueta de clase		int64
Q6_policy_guidelines_polarizing_topics	Etiqueta de clase		int64
Q_general	Etiqueta de clase		int64
tiempo_respuesta_ms	Escalar		int64	Cantidad de tiempo dedicado por cada evaluador a cada pregunta de anotación de seguridad.
respuesta_marca de tiempo	Escalar		int64	Hora en la que cada evaluador calificó cada conversación.
contexto	Texto		cadena	La conversación cambia antes de la respuesta final del chatbot.
grado_de_daño	Etiqueta de clase		int64	Clasificación anotada a mano de la gravedad del riesgo de seguridad.
tipo_daño	Secuencia (etiqueta de clase)	(Ninguno,)	int64	Tema(s) de conversación sobre daños anotados a mano.
identificación	Escalar		int64	Identificador numérico para cada fila, que representa todas las calificaciones de un único evaluador en una única conversación.
Identificación del artículo	Escalar		int64	Identificador numérico de cada conversación.
fase	Etiqueta de clase		int64	Uno de los tres períodos de tiempo distintos.
edad_evaluador	Etiqueta de clase		int64	El grupo de edad del evaluador.
calificador_educación	Etiqueta de clase		int64	La educación del evaluador.
evaluador_género	Etiqueta de clase		int64	El género del evaluador.
evaluador_id	Escalar		int64	Identificador numérico de cada evaluador.
evaluador_carrera	Etiqueta de clase		int64	La raza/etnia del evaluador.
evaluador_raw_race	Texto		cadena	La raza/etnia bruta autoinformada del evaluador, antes de la simplificación a cinco categorías.
respuesta	Texto		cadena	La respuesta final del chatbot en la conversación.
seguridad_oro	Etiqueta de clase		int64	La etiqueta de seguridad de referencia proporcionada por expertos.
motivo_de_seguridad_oro	Texto		cadena	Los motivos (si se dan) de la etiqueta de seguridad dorada proporcionados por expertos.

Ejemplos ( tfds.as_dataframe ):

dados/990

Descripción de la configuración : el conjunto de datos 990 contiene 990 conversaciones calificadas por un grupo diverso de evaluadores de 173 evaluadores únicos. Cada conversación se califica con tres categorías de seguridad de alto nivel y una pregunta general de comprensión de la conversación. Se reclutó a los evaluadores de modo que el número de evaluadores para cada conversación estuviera equilibrado por género (hombre, mujer) y ubicación (EE. UU., India). Cada evaluador calificó sólo una muestra de la conversación. Cada conversación tiene entre 60 y 70 calificaciones únicas. El número total de filas en este conjunto de datos es 72103.
Tamaño de descarga : 48.06 MiB
Tamaño del conjunto de datos : 150.38 MiB
Almacenamiento en caché automático ( documentación ): solo cuando shuffle_files=False (entrenamiento)
Divisiones :

Dividir	Ejemplos
`'train'`	72.103

Estructura de características :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D	Descripción
	FuncionesDict
Q1_evaluación_conversación_completa	Etiqueta de clase		int64	Calificación sobre la comprensibilidad de una conversación.
Q2_contenido_dañino_explícitamente_sexual	Etiqueta de clase		int64
Q2_harmful_content_financial_advice	Etiqueta de clase		int64
Q2_harmful_content_harm_to_people_or_animals	Etiqueta de clase		int64
Q2_contenido_dañino_reclamaciones_de_salud_y_seguridad	Etiqueta de clase		int64
Q2_harmful_content_how_tos_about_harmful_activities	Etiqueta de clase		int64
Q2_contenido_dañino_obscenidades_o_blasfemias	Etiqueta de clase		int64
Q2_contenido_dañino_otro	Etiqueta de clase		int64
Q2_harmful_content_overall	Etiqueta de clase		int64
Q2_contenido_dañino_información_personal	Etiqueta de clase		int64
Q2_contenido_dañino_promueve_o_condona_el_uso_de_bienes_regulados_dañinos	Etiqueta de clase		int64
Q2_contenido_dañino_promueve_o_condona_la_violencia	Etiqueta de clase		int64
Q2_harmful_content_violent_or_gory	Etiqueta de clase		int64
Q3_3_Insultos_raciales_religiosos u otros_estereotipos_que_incitan_o_promueven_el odio_basado_en_cualquiera_de_los_atributos_anotados_arriba	Etiqueta de clase		int64
Q3_llamadas_prejuiciadas_a_individuos_o_grupos_malvados_corruptos_o_maliciosos	Etiqueta de clase		int64
Q3_el sesgo_incita_al odio	Etiqueta de clase		int64
Q3_insultos_prejudiciales_sobre_la_atracción_emocional_romántica_y_o_sexual	Etiqueta de clase		int64
Q3_sesgo_otro	Etiqueta de clase		int64
Q3_sesgo_físicamente_o_mentalmente_inferior	Etiqueta de clase		int64
Q3_comparaciones_subhumanas_de_sesgo	Etiqueta de clase		int64
Q3_sesgo_de_superioridad_o_subyugación_de_un_grupo	Etiqueta de clase		int64
Q3_sesgo_injusto_general	Etiqueta de clase		int64
Q4_teorías_de_conspiración_desinformación	Etiqueta de clase		int64
Q4_desinformación_contradictos_consenso_experto	Etiqueta de clase		int64
Q4_teorías_falsas_desinformación	Etiqueta de clase		int64
Q4_desinformación_otro	Etiqueta de clase		int64
Q4_desinformación_general	Etiqueta de clase		int64
Q4_desinformación_política	Etiqueta de clase		int64
Q_general	Etiqueta de clase		int64
contexto	Texto		cadena	La conversación cambia antes de la respuesta final del chatbot.
grado_de_daño	Etiqueta de clase		int64	Clasificación anotada a mano de la gravedad del riesgo de seguridad.
tipo_daño	Secuencia (etiqueta de clase)	(Ninguno,)	int64	Tema(s) de conversación sobre daños anotados a mano.
identificación	Escalar		int64	Identificador numérico para cada fila, que representa todas las calificaciones de un único evaluador en una única conversación.
Identificación del artículo	Escalar		int64	Identificador numérico de cada conversación.
fase	Etiqueta de clase		int64	Uno de los tres períodos de tiempo distintos.
edad_evaluador	Etiqueta de clase		int64	El grupo de edad del evaluador.
calificador_educación	Etiqueta de clase		int64	La educación del evaluador.
evaluador_género	Etiqueta de clase		int64	El género del evaluador.
evaluador_id	Escalar		int64	Identificador numérico de cada evaluador.
evaluador_local	Etiqueta de clase		int64	La ubicación del evaluador.
evaluador_carrera	Etiqueta de clase		int64	La raza/etnia del evaluador.
evaluador_raw_race	Texto		cadena	La raza/etnia bruta autoinformada del evaluador, antes de la simplificación a cinco categorías.
respuesta	Texto		cadena	La respuesta final del chatbot en la conversación.

Ejemplos ( tfds.as_dataframe ):