dados

  • Descripción :

El conjunto de datos de diversidad en la evaluación de la seguridad de la IA conversacional ( DICES )

Los enfoques de aprendizaje automático a menudo se entrenan y evalúan con conjuntos de datos que requieren una separación clara entre ejemplos positivos y negativos. Este enfoque simplifica demasiado la subjetividad natural presente en muchas tareas y elementos de contenido. También oscurece la diversidad inherente a las percepciones y opiniones humanas. A menudo, las tareas que intentan preservar la variación en el contenido y la diversidad de los seres humanos son bastante costosas y laboriosas. Para llenar este vacío y facilitar análisis más profundos del rendimiento del modelo, proponemos el conjunto de datos DICES, un conjunto de datos único con diversas perspectivas sobre la seguridad de las conversaciones generadas por IA. Nos centramos en la tarea de evaluación de la seguridad de los sistemas de IA conversacionales. El conjunto de datos de DICES contiene información demográfica detallada sobre cada evaluador, una replicación extremadamente alta de calificaciones únicas por conversación para garantizar la importancia estadística de análisis adicionales y codifica los votos de los evaluadores como distribuciones entre diferentes datos demográficos para permitir exploraciones en profundidad de diferentes estrategias de agregación de calificaciones.

Este conjunto de datos es muy adecuado para observar y medir la variación, la ambigüedad y la diversidad en el contexto de la seguridad de la IA conversacional. El conjunto de datos va acompañado de un artículo que describe un conjunto de métricas que muestran cómo la diversidad de los evaluadores influye en la percepción de seguridad de los evaluadores de diferentes regiones geográficas, grupos étnicos, grupos de edad y géneros. El objetivo del conjunto de datos DICES es utilizarse como punto de referencia compartido para la evaluación de la seguridad de los sistemas de IA conversacionales.

ADVERTENCIA DE CONTENIDO : este conjunto de datos contiene ejemplos conflictivos de conversaciones que pueden resultar ofensivas.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dados/350 (configuración predeterminada)

  • Descripción de la configuración : el conjunto de datos 350 contiene 350 conversaciones calificadas por un grupo diverso de evaluadores de 123 evaluadores únicos. Cada conversación se califica con cinco categorías de seguridad de alto nivel y una pregunta de comprensión general de la conversación. Los evaluadores reclutados se equilibraron por género (hombre o mujer), raza/etnia (blanco, negro, latino, asiático, multirracial) y cada evaluador calificó todos los elementos. Cada evaluador calificó todas las conversaciones. Cada conversación tiene 123 calificaciones únicas. El número total de filas en este conjunto de datos es 43050.

  • Tamaño de descarga : 29.70 MiB

  • Tamaño del conjunto de datos : 74.43 MiB

  • Almacenamiento en caché automático ( documentación ): Sí

  • Divisiones :

Dividir Ejemplos
'train' 43.050
  • Estructura de características :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
Q1_evaluación_conversación_completa Etiqueta de clase int64 Calificación sobre la comprensibilidad de una conversación.
Q2_contenido_dañino_contenido_peligroso Etiqueta de clase int64
Q2_contenido_dañino_derogación_del_barco Etiqueta de clase int64
Q2_contenido_dañino_insensible Etiqueta de clase int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice Etiqueta de clase int64
Q2_contenido_dañino_obsceno_y_profano Etiqueta de clase int64
Q2_contenido_dañino_otro Etiqueta de clase int64
Q2_harmful_content_overall Etiqueta de clase int64
Q2_contenido_dañino_información_personal Etiqueta de clase int64
Q2_bienes_regulados_contenido_dañino Etiqueta de clase int64
Q2_contenido_dañino_contenido_sexualmente_sugestivo Etiqueta de clase int64
Q3_sesgo_otro Etiqueta de clase int64
Q3_bias_overall Etiqueta de clase int64
Q3_bias_targeting_creencias Etiqueta de clase int64
Q3_bias_targeting_gender_sexual_orientation Etiqueta de clase int64
Q3_bias_targeting_atributos_heredados Etiqueta de clase int64
Q3_bias_targeting_status Etiqueta de clase int64
Q4_desinformación Etiqueta de clase int64
Q5_afiliación_política Etiqueta de clase int64
Q6_policy_guidelines_making_endorsement Etiqueta de clase int64
Q6_policy_guidelines_other Etiqueta de clase int64
Q6_policy_guidelines_overall Etiqueta de clase int64
Q6_policy_guidelines_polarizing_topics Etiqueta de clase int64
Q_general Etiqueta de clase int64
tiempo_respuesta_ms Escalar int64 Cantidad de tiempo dedicado por cada evaluador a cada pregunta de anotación de seguridad.
respuesta_marca de tiempo Escalar int64 Hora en la que cada evaluador calificó cada conversación.
contexto Texto cadena La conversación cambia antes de la respuesta final del chatbot.
grado_de_daño Etiqueta de clase int64 Clasificación anotada a mano de la gravedad del riesgo de seguridad.
tipo_daño Secuencia (etiqueta de clase) (Ninguno,) int64 Tema(s) de conversación sobre daños anotados a mano.
identificación Escalar int64 Identificador numérico para cada fila, que representa todas las calificaciones de un único evaluador en una única conversación.
Identificación del artículo Escalar int64 Identificador numérico de cada conversación.
fase Etiqueta de clase int64 Uno de los tres períodos de tiempo distintos.
edad_evaluador Etiqueta de clase int64 El grupo de edad del evaluador.
calificador_educación Etiqueta de clase int64 La educación del evaluador.
evaluador_género Etiqueta de clase int64 El género del evaluador.
evaluador_id Escalar int64 Identificador numérico de cada evaluador.
evaluador_carrera Etiqueta de clase int64 La raza/etnia del evaluador.
evaluador_raw_race Texto cadena La raza/etnia bruta autoinformada del evaluador, antes de la simplificación a cinco categorías.
respuesta Texto cadena La respuesta final del chatbot en la conversación.
seguridad_oro Etiqueta de clase int64 La etiqueta de seguridad de referencia proporcionada por expertos.
motivo_de_seguridad_oro Texto cadena Los motivos (si se dan) de la etiqueta de seguridad dorada proporcionados por expertos.

dados/990

  • Descripción de la configuración : el conjunto de datos 990 contiene 990 conversaciones calificadas por un grupo diverso de evaluadores de 173 evaluadores únicos. Cada conversación se califica con tres categorías de seguridad de alto nivel y una pregunta general de comprensión de la conversación. Se reclutó a los evaluadores de modo que el número de evaluadores para cada conversación estuviera equilibrado por género (hombre, mujer) y ubicación (EE. UU., India). Cada evaluador calificó sólo una muestra de la conversación. Cada conversación tiene entre 60 y 70 calificaciones únicas. El número total de filas en este conjunto de datos es 72103.

  • Tamaño de descarga : 48.06 MiB

  • Tamaño del conjunto de datos : 150.38 MiB

  • Almacenamiento en caché automático ( documentación ): solo cuando shuffle_files=False (entrenamiento)

  • Divisiones :

Dividir Ejemplos
'train' 72.103
  • Estructura de características :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Documentación de funciones :
Característica Clase Forma tipo D Descripción
FuncionesDict
Q1_evaluación_conversación_completa Etiqueta de clase int64 Calificación sobre la comprensibilidad de una conversación.
Q2_contenido_dañino_explícitamente_sexual Etiqueta de clase int64
Q2_harmful_content_financial_advice Etiqueta de clase int64
Q2_harmful_content_harm_to_people_or_animals Etiqueta de clase int64
Q2_contenido_dañino_reclamaciones_de_salud_y_seguridad Etiqueta de clase int64
Q2_harmful_content_how_tos_about_harmful_activities Etiqueta de clase int64
Q2_contenido_dañino_obscenidades_o_blasfemias Etiqueta de clase int64
Q2_contenido_dañino_otro Etiqueta de clase int64
Q2_harmful_content_overall Etiqueta de clase int64
Q2_contenido_dañino_información_personal Etiqueta de clase int64
Q2_contenido_dañino_promueve_o_condona_el_uso_de_bienes_regulados_dañinos Etiqueta de clase int64
Q2_contenido_dañino_promueve_o_condona_la_violencia Etiqueta de clase int64
Q2_harmful_content_violent_or_gory Etiqueta de clase int64
Q3_3_Insultos_raciales_religiosos u otros_estereotipos_que_incitan_o_promueven_el odio_basado_en_cualquiera_de_los_atributos_anotados_arriba Etiqueta de clase int64
Q3_llamadas_prejuiciadas_a_individuos_o_grupos_malvados_corruptos_o_maliciosos Etiqueta de clase int64
Q3_el sesgo_incita_al odio Etiqueta de clase int64
Q3_insultos_prejudiciales_sobre_la_atracción_emocional_romántica_y_o_sexual Etiqueta de clase int64
Q3_sesgo_otro Etiqueta de clase int64
Q3_sesgo_físicamente_o_mentalmente_inferior Etiqueta de clase int64
Q3_comparaciones_subhumanas_de_sesgo Etiqueta de clase int64
Q3_sesgo_de_superioridad_o_subyugación_de_un_grupo Etiqueta de clase int64
Q3_sesgo_injusto_general Etiqueta de clase int64
Q4_teorías_de_conspiración_desinformación Etiqueta de clase int64
Q4_desinformación_contradictos_consenso_experto Etiqueta de clase int64
Q4_teorías_falsas_desinformación Etiqueta de clase int64
Q4_desinformación_otro Etiqueta de clase int64
Q4_desinformación_general Etiqueta de clase int64
Q4_desinformación_política Etiqueta de clase int64
Q_general Etiqueta de clase int64
contexto Texto cadena La conversación cambia antes de la respuesta final del chatbot.
grado_de_daño Etiqueta de clase int64 Clasificación anotada a mano de la gravedad del riesgo de seguridad.
tipo_daño Secuencia (etiqueta de clase) (Ninguno,) int64 Tema(s) de conversación sobre daños anotados a mano.
identificación Escalar int64 Identificador numérico para cada fila, que representa todas las calificaciones de un único evaluador en una única conversación.
Identificación del artículo Escalar int64 Identificador numérico de cada conversación.
fase Etiqueta de clase int64 Uno de los tres períodos de tiempo distintos.
edad_evaluador Etiqueta de clase int64 El grupo de edad del evaluador.
calificador_educación Etiqueta de clase int64 La educación del evaluador.
evaluador_género Etiqueta de clase int64 El género del evaluador.
evaluador_id Escalar int64 Identificador numérico de cada evaluador.
evaluador_local Etiqueta de clase int64 La ubicación del evaluador.
evaluador_carrera Etiqueta de clase int64 La raza/etnia del evaluador.
evaluador_raw_race Texto cadena La raza/etnia bruta autoinformada del evaluador, antes de la simplificación a cinco categorías.
respuesta Texto cadena La respuesta final del chatbot en la conversación.