dados

  • Descrição :

O conjunto de dados Diversidade na Avaliação de IA Conversacional para Segurança ( DICES )

As abordagens de aprendizado de máquina são frequentemente treinadas e avaliadas com conjuntos de dados que exigem uma separação clara entre exemplos positivos e negativos. Esta abordagem simplifica excessivamente a subjetividade natural presente em muitas tarefas e itens de conteúdo. Também obscurece a diversidade inerente às percepções e opiniões humanas. Muitas vezes, as tarefas que tentam preservar a variação no conteúdo e na diversidade dos seres humanos são bastante caras e trabalhosas. Para preencher esta lacuna e facilitar análises mais aprofundadas do desempenho do modelo, propomos o conjunto de dados DICES – um conjunto de dados único com diversas perspectivas sobre a segurança das conversas geradas por IA. Nós nos concentramos na tarefa de avaliação de segurança de sistemas de IA conversacionais. O conjunto de dados DICES contém informações demográficas detalhadas sobre cada avaliador, replicação extremamente alta de classificações exclusivas por conversa para garantir a significância estatística de análises adicionais e codifica os votos dos avaliadores como distribuições entre diferentes dados demográficos para permitir explorações aprofundadas de diferentes estratégias de agregação de classificações.

Este conjunto de dados é adequado para observar e medir a variação, ambiguidade e diversidade no contexto da segurança da IA ​​conversacional. O conjunto de dados é acompanhado por um artigo que descreve um conjunto de métricas que mostram como a diversidade dos avaliadores influencia a percepção de segurança dos avaliadores de diferentes regiões geográficas, grupos étnicos, faixas etárias e géneros. O objetivo do conjunto de dados DICES é ser usado como referência compartilhada para avaliação de segurança de sistemas de IA conversacionais.

AVISO DE CONTEÚDO : Este conjunto de dados contém exemplos adversários de conversas que podem ser ofensivas.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (configuração padrão)

  • Descrição da configuração : o conjunto de dados 350 contém 350 conversas avaliadas por um conjunto diversificado de avaliadores de 123 avaliadores exclusivos. Cada conversa é avaliada com cinco categorias de segurança de nível superior e uma questão de compreensão geral da conversa. Os avaliadores foram recrutados e balanceados por gênero (homem ou mulher), raça/etnia (branca, negra, latina, asiática, multirracial) e cada avaliador avaliou todos os itens. Cada avaliador avaliou todas as conversas. Cada conversa tem 123 classificações exclusivas. O número total de linhas neste conjunto de dados é 43.050.

  • Tamanho do download : 29.70 MiB

  • Tamanho do conjunto de dados : 74.43 MiB

  • Armazenado em cache automaticamente ( documentação ): Sim

  • Divisões :

Dividir Exemplos
'train' 43.050
  • Estrutura de recursos :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
Q1_completa_conversação_avaliação ClassLabel int64 Avaliação sobre a compreensibilidade de uma conversa.
Q2_harmful_content_dangerous_content ClassLabel int64
Q2_harmful_content_derogation_of_boat ClassLabel int64
Q2_harmful_content_insensitive ClassLabel int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice ClassLabel int64
Q2_harmful_content_obscene_and_profane ClassLabel int64
Q2_harmful_content_other ClassLabel int64
Q2_harmful_content_overall ClassLabel int64
Q2_harmful_content_personal_information ClassLabel int64
Q2_harmful_content_regulated_goods ClassLabel int64
Q2_harmful_content_sexualmente_suggestive_content ClassLabel int64
Q3_bias_other ClassLabel int64
Q3_bias_overall ClassLabel int64
Q3_bias_targeting_beliefs ClassLabel int64
Q3_bias_targeting_gender_sexual_orientation ClassLabel int64
Q3_bias_targeting_inherited_attributes ClassLabel int64
Q3_bias_targeting_status ClassLabel int64
Q4_desinformação ClassLabel int64
Q5_político_affiliation ClassLabel int64
Q6_policy_guidelines_making_endorsement ClassLabel int64
Q6_policy_guidelines_other ClassLabel int64
Q6_policy_guidelines_overall ClassLabel int64
Q6_policy_guidelines_polarizing_topics ClassLabel int64
Q_geral ClassLabel int64
resposta_tempo_ms Escalar int64 Quantidade de tempo gasto por cada avaliador em cada questão da anotação de segurança.
resposta_timestamp Escalar int64 Hora em que cada conversa foi avaliada por cada avaliador.
contexto Texto corda A conversa termina antes da resposta final do chatbot.
grau_de_dano ClassLabel int64 Classificação anotada à mão da gravidade do risco de segurança.
tipo_dano Sequência (ClassLabel) (Nenhum,) int64 Tópico(s) de conversa sobre danos anotados à mão.
eu ia Escalar int64 Identificador numérico para cada linha, representando todas as avaliações de um único avaliador para uma única conversa.
item_id Escalar int64 Identificador numérico para cada conversa.
Estágio ClassLabel int64 Um dos três períodos de tempo distintos.
idade_do avaliador ClassLabel int64 A faixa etária do avaliador.
avaliador_educação ClassLabel int64 A educação do avaliador.
avaliador_gênero ClassLabel int64 O gênero do avaliador.
avaliador_id Escalar int64 Identificador numérico para cada avaliador.
avaliador_corrida ClassLabel int64 A raça/etnia do avaliador.
avaliador_raw_race Texto corda A raça/etnia bruta autodeclarada pelo avaliador, antes da simplificação para cinco categorias.
resposta Texto corda A resposta final do chatbot na conversa.
segurança_ouro ClassLabel int64 O selo de segurança padrão ouro fornecido por especialistas.
segurança_ouro_motivo Texto corda A(s) razão(ões) (se fornecida) para o rótulo de segurança dourado fornecido por especialistas.

dados/990

  • Descrição da configuração : o conjunto de dados 990 contém 990 conversas avaliadas por um conjunto diversificado de avaliadores de 173 avaliadores exclusivos. Cada conversa é avaliada com três categorias de segurança de nível superior e uma questão geral de compreensão da conversa. Os avaliadores foram recrutados de forma que o número de avaliadores para cada conversa fosse equilibrado por gênero (homem, mulher) e localidade (EUA, Índia). Cada avaliador avaliou apenas uma amostra da conversa. Cada conversa tem de 60 a 70 avaliações exclusivas. O número total de linhas neste conjunto de dados é 72.103.

  • Tamanho do download : 48.06 MiB

  • Tamanho do conjunto de dados : 150.38 MiB

  • Armazenado em cache automaticamente ( documentação ): somente quando shuffle_files=False (train)

  • Divisões :

Dividir Exemplos
'train' 72.103
  • Estrutura de recursos :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Documentação de recursos :
Recurso Aula Forma Tipo D Descrição
RecursosDict
Q1_completa_conversação_avaliação ClassLabel int64 Avaliação sobre a compreensibilidade de uma conversa.
Q2_harmful_content_explicitly_sexual ClassLabel int64
Q2_harmful_content_financial_advice ClassLabel int64
Q2_harmful_content_harm_to_people_or_animals ClassLabel int64
Q2_reivindicações_de_conteúdo_prejudiciais_de_saúde_e_segurança ClassLabel int64
Q2_harmful_content_how_tos_about_harmful_activities ClassLabel int64
Q2_harmful_content_obscenities_or_profanities ClassLabel int64
Q2_harmful_content_other ClassLabel int64
Q2_harmful_content_overall ClassLabel int64
Q2_harmful_content_personal_information ClassLabel int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods ClassLabel int64
Q2_harmful_content_promotes_or_condones_violence ClassLabel int64
Q2_harmful_content_violent_or_gory ClassLabel int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above ClassLabel int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious ClassLabel int64
Q3_bias_incites_hatred ClassLabel int64
Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction ClassLabel int64
Q3_bias_other ClassLabel int64
Q3_bias_fisicamente_ou_mentalmente_inferior ClassLabel int64
Q3_bias_subhuman_comparisons ClassLabel int64
Q3_bias_superiority_or_subjugation_of_a_group ClassLabel int64
Q3_unfair_bias_overall ClassLabel int64
Q4_misinformation_conspiracy_theories ClassLabel int64
Q4_misinformation_contradicts_expert_consensus ClassLabel int64
Q4_misinformation_false_theories ClassLabel int64
Q4_misinformation_other ClassLabel int64
Q4_desinformação_geral ClassLabel int64
Q4_desinformação_política ClassLabel int64
Q_geral ClassLabel int64
contexto Texto corda A conversa termina antes da resposta final do chatbot.
grau_de_dano ClassLabel int64 Classificação anotada à mão da gravidade do risco de segurança.
tipo_dano Sequência (ClassLabel) (Nenhum,) int64 Tópico(s) de conversa sobre danos anotados à mão.
eu ia Escalar int64 Identificador numérico para cada linha, representando todas as avaliações de um único avaliador para uma única conversa.
item_id Escalar int64 Identificador numérico para cada conversa.
Estágio ClassLabel int64 Um dos três períodos de tempo distintos.
idade_do avaliador ClassLabel int64 A faixa etária do avaliador.
avaliador_educação ClassLabel int64 A educação do avaliador.
avaliador_gênero ClassLabel int64 O gênero do avaliador.
avaliador_id Escalar int64 Identificador numérico para cada avaliador.
avaliador_locale ClassLabel int64 A localidade do avaliador.
avaliador_corrida ClassLabel int64 A raça/etnia do avaliador.
avaliador_raw_race Texto corda A raça/etnia bruta autodeclarada pelo avaliador, antes da simplificação para cinco categorias.
resposta Texto corda A resposta final do chatbot na conversa.