dados

Descrição :

O conjunto de dados Diversidade na Avaliação de IA Conversacional para Segurança ( DICES )

As abordagens de aprendizado de máquina são frequentemente treinadas e avaliadas com conjuntos de dados que exigem uma separação clara entre exemplos positivos e negativos. Esta abordagem simplifica excessivamente a subjetividade natural presente em muitas tarefas e itens de conteúdo. Também obscurece a diversidade inerente às percepções e opiniões humanas. Muitas vezes, as tarefas que tentam preservar a variação no conteúdo e na diversidade dos seres humanos são bastante caras e trabalhosas. Para preencher esta lacuna e facilitar análises mais aprofundadas do desempenho do modelo, propomos o conjunto de dados DICES – um conjunto de dados único com diversas perspectivas sobre a segurança das conversas geradas por IA. Nós nos concentramos na tarefa de avaliação de segurança de sistemas de IA conversacionais. O conjunto de dados DICES contém informações demográficas detalhadas sobre cada avaliador, replicação extremamente alta de classificações exclusivas por conversa para garantir a significância estatística de análises adicionais e codifica os votos dos avaliadores como distribuições entre diferentes dados demográficos para permitir explorações aprofundadas de diferentes estratégias de agregação de classificações.

Este conjunto de dados é adequado para observar e medir a variação, ambiguidade e diversidade no contexto da segurança da IA conversacional. O conjunto de dados é acompanhado por um artigo que descreve um conjunto de métricas que mostram como a diversidade dos avaliadores influencia a percepção de segurança dos avaliadores de diferentes regiões geográficas, grupos étnicos, faixas etárias e géneros. O objetivo do conjunto de dados DICES é ser usado como referência compartilhada para avaliação de segurança de sistemas de IA conversacionais.

AVISO DE CONTEÚDO : Este conjunto de dados contém exemplos adversários de conversas que podem ser ofensivas.

Página inicial : https://github.com/google-research-datasets/dices-dataset
Código fonte : tfds.datasets.dices.Builder
Versões :
- 1.0.0 (padrão): versão inicial.
Chaves supervisionadas (consulte o documento as_supervised ): None
Figura ( tfds.show_examples ): Não suportado.
Citação :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (configuração padrão)

Descrição da configuração : o conjunto de dados 350 contém 350 conversas avaliadas por um conjunto diversificado de avaliadores de 123 avaliadores exclusivos. Cada conversa é avaliada com cinco categorias de segurança de nível superior e uma questão de compreensão geral da conversa. Os avaliadores foram recrutados e balanceados por gênero (homem ou mulher), raça/etnia (branca, negra, latina, asiática, multirracial) e cada avaliador avaliou todos os itens. Cada avaliador avaliou todas as conversas. Cada conversa tem 123 classificações exclusivas. O número total de linhas neste conjunto de dados é 43.050.
Tamanho do download : 29.70 MiB
Tamanho do conjunto de dados : 74.43 MiB
Armazenado em cache automaticamente ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	43.050

Estrutura de recursos :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Documentação de recursos :

Recurso	Aula	Forma	Tipo D	Descrição
	RecursosDict
Q1_completa_conversação_avaliação	ClassLabel		int64	Avaliação sobre a compreensibilidade de uma conversa.
Q2_harmful_content_dangerous_content	ClassLabel		int64
Q2_harmful_content_derogation_of_boat	ClassLabel		int64
Q2_harmful_content_insensitive	ClassLabel		int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice	ClassLabel		int64
Q2_harmful_content_obscene_and_profane	ClassLabel		int64
Q2_harmful_content_other	ClassLabel		int64
Q2_harmful_content_overall	ClassLabel		int64
Q2_harmful_content_personal_information	ClassLabel		int64
Q2_harmful_content_regulated_goods	ClassLabel		int64
Q2_harmful_content_sexualmente_suggestive_content	ClassLabel		int64
Q3_bias_other	ClassLabel		int64
Q3_bias_overall	ClassLabel		int64
Q3_bias_targeting_beliefs	ClassLabel		int64
Q3_bias_targeting_gender_sexual_orientation	ClassLabel		int64
Q3_bias_targeting_inherited_attributes	ClassLabel		int64
Q3_bias_targeting_status	ClassLabel		int64
Q4_desinformação	ClassLabel		int64
Q5_político_affiliation	ClassLabel		int64
Q6_policy_guidelines_making_endorsement	ClassLabel		int64
Q6_policy_guidelines_other	ClassLabel		int64
Q6_policy_guidelines_overall	ClassLabel		int64
Q6_policy_guidelines_polarizing_topics	ClassLabel		int64
Q_geral	ClassLabel		int64
resposta_tempo_ms	Escalar		int64	Quantidade de tempo gasto por cada avaliador em cada questão da anotação de segurança.
resposta_timestamp	Escalar		int64	Hora em que cada conversa foi avaliada por cada avaliador.
contexto	Texto		corda	A conversa termina antes da resposta final do chatbot.
grau_de_dano	ClassLabel		int64	Classificação anotada à mão da gravidade do risco de segurança.
tipo_dano	Sequência (ClassLabel)	(Nenhum,)	int64	Tópico(s) de conversa sobre danos anotados à mão.
eu ia	Escalar		int64	Identificador numérico para cada linha, representando todas as avaliações de um único avaliador para uma única conversa.
item_id	Escalar		int64	Identificador numérico para cada conversa.
Estágio	ClassLabel		int64	Um dos três períodos de tempo distintos.
idade_do avaliador	ClassLabel		int64	A faixa etária do avaliador.
avaliador_educação	ClassLabel		int64	A educação do avaliador.
avaliador_gênero	ClassLabel		int64	O gênero do avaliador.
avaliador_id	Escalar		int64	Identificador numérico para cada avaliador.
avaliador_corrida	ClassLabel		int64	A raça/etnia do avaliador.
avaliador_raw_race	Texto		corda	A raça/etnia bruta autodeclarada pelo avaliador, antes da simplificação para cinco categorias.
resposta	Texto		corda	A resposta final do chatbot na conversa.
segurança_ouro	ClassLabel		int64	O selo de segurança padrão ouro fornecido por especialistas.
segurança_ouro_motivo	Texto		corda	A(s) razão(ões) (se fornecida) para o rótulo de segurança dourado fornecido por especialistas.

Exemplos ( tfds.as_dataframe ):

dados/990

Descrição da configuração : o conjunto de dados 990 contém 990 conversas avaliadas por um conjunto diversificado de avaliadores de 173 avaliadores exclusivos. Cada conversa é avaliada com três categorias de segurança de nível superior e uma questão geral de compreensão da conversa. Os avaliadores foram recrutados de forma que o número de avaliadores para cada conversa fosse equilibrado por gênero (homem, mulher) e localidade (EUA, Índia). Cada avaliador avaliou apenas uma amostra da conversa. Cada conversa tem de 60 a 70 avaliações exclusivas. O número total de linhas neste conjunto de dados é 72.103.
Tamanho do download : 48.06 MiB
Tamanho do conjunto de dados : 150.38 MiB
Armazenado em cache automaticamente ( documentação ): somente quando shuffle_files=False (train)
Divisões :

Dividir	Exemplos
`'train'`	72.103

Estrutura de recursos :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Documentação de recursos :

Recurso	Aula	Forma	Tipo D	Descrição
	RecursosDict
Q1_completa_conversação_avaliação	ClassLabel		int64	Avaliação sobre a compreensibilidade de uma conversa.
Q2_harmful_content_explicitly_sexual	ClassLabel		int64
Q2_harmful_content_financial_advice	ClassLabel		int64
Q2_harmful_content_harm_to_people_or_animals	ClassLabel		int64
Q2_reivindicações_de_conteúdo_prejudiciais_de_saúde_e_segurança	ClassLabel		int64
Q2_harmful_content_how_tos_about_harmful_activities	ClassLabel		int64
Q2_harmful_content_obscenities_or_profanities	ClassLabel		int64
Q2_harmful_content_other	ClassLabel		int64
Q2_harmful_content_overall	ClassLabel		int64
Q2_harmful_content_personal_information	ClassLabel		int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods	ClassLabel		int64
Q2_harmful_content_promotes_or_condones_violence	ClassLabel		int64
Q2_harmful_content_violent_or_gory	ClassLabel		int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above	ClassLabel		int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious	ClassLabel		int64
Q3_bias_incites_hatred	ClassLabel		int64
Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction	ClassLabel		int64
Q3_bias_other	ClassLabel		int64
Q3_bias_fisicamente_ou_mentalmente_inferior	ClassLabel		int64
Q3_bias_subhuman_comparisons	ClassLabel		int64
Q3_bias_superiority_or_subjugation_of_a_group	ClassLabel		int64
Q3_unfair_bias_overall	ClassLabel		int64
Q4_misinformation_conspiracy_theories	ClassLabel		int64
Q4_misinformation_contradicts_expert_consensus	ClassLabel		int64
Q4_misinformation_false_theories	ClassLabel		int64
Q4_misinformation_other	ClassLabel		int64
Q4_desinformação_geral	ClassLabel		int64
Q4_desinformação_política	ClassLabel		int64
Q_geral	ClassLabel		int64
contexto	Texto		corda	A conversa termina antes da resposta final do chatbot.
grau_de_dano	ClassLabel		int64	Classificação anotada à mão da gravidade do risco de segurança.
tipo_dano	Sequência (ClassLabel)	(Nenhum,)	int64	Tópico(s) de conversa sobre danos anotados à mão.
eu ia	Escalar		int64	Identificador numérico para cada linha, representando todas as avaliações de um único avaliador para uma única conversa.
item_id	Escalar		int64	Identificador numérico para cada conversa.
Estágio	ClassLabel		int64	Um dos três períodos de tempo distintos.
idade_do avaliador	ClassLabel		int64	A faixa etária do avaliador.
avaliador_educação	ClassLabel		int64	A educação do avaliador.
avaliador_gênero	ClassLabel		int64	O gênero do avaliador.
avaliador_id	Escalar		int64	Identificador numérico para cada avaliador.
avaliador_locale	ClassLabel		int64	A localidade do avaliador.
avaliador_corrida	ClassLabel		int64	A raça/etnia do avaliador.
avaliador_raw_race	Texto		corda	A raça/etnia bruta autodeclarada pelo avaliador, antes da simplificação para cinco categorias.
resposta	Texto		corda	A resposta final do chatbot na conversa.

Exemplos ( tfds.as_dataframe ):