dés

Description :

L'ensemble de données sur la diversité dans l'évaluation de la sécurité de l'IA conversationnelle ( DICES )

Les approches d'apprentissage automatique sont souvent formées et évaluées avec des ensembles de données qui nécessitent une séparation claire entre les exemples positifs et négatifs. Cette approche simplifie à l'excès la subjectivité naturelle présente dans de nombreuses tâches et éléments de contenu. Cela obscurcit également la diversité inhérente aux perceptions et opinions humaines. Souvent, les tâches qui tentent de préserver la variance du contenu et la diversité chez les humains sont assez coûteuses et laborieuses. Pour combler cette lacune et faciliter des analyses plus approfondies des performances des modèles, nous proposons l'ensemble de données DICES - un ensemble de données unique avec diverses perspectives sur la sécurité des conversations générées par l'IA. Nous nous concentrons sur la tâche d’évaluation de la sécurité des systèmes d’IA conversationnelle. L'ensemble de données DICES contient des informations démographiques détaillées sur chaque évaluateur, une réplication extrêmement élevée des notes uniques par conversation pour garantir la signification statistique des analyses ultérieures et code les votes des évaluateurs sous forme de distributions sur différentes données démographiques pour permettre des explorations approfondies de différentes stratégies d'agrégation de notes.

Cet ensemble de données est bien adapté pour observer et mesurer la variance, l'ambiguïté et la diversité dans le contexte de la sécurité de l'IA conversationnelle. L'ensemble de données est accompagné d'un article décrivant un ensemble de mesures qui montrent comment la diversité des évaluateurs influence la perception de sécurité des évaluateurs de différentes régions géographiques, groupes ethniques, groupes d'âge et sexes. L’objectif de l’ensemble de données DICES est d’être utilisé comme référence partagée pour l’évaluation de la sécurité des systèmes d’IA conversationnelle.

AVERTISSEMENT DE CONTENU : cet ensemble de données contient des exemples contradictoires de conversations pouvant être offensantes.

Page d'accueil : https://github.com/google-research-datasets/dices-dataset
Code source : tfds.datasets.dices.Builder
Versions :
- 1.0.0 (par défaut) : version initiale.
Clés supervisées (Voir doc as_supervised ) : None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dés/350 (configuration par défaut)

Description de la configuration : L'ensemble de données 350 contient 350 conversations évaluées par un pool d'évaluateurs diversifié de 123 évaluateurs uniques. Chaque conversation est notée selon cinq catégories de sécurité de premier niveau et une question de compréhension globale de la conversation. Les évaluateurs ont été recrutés de manière équilibrée par sexe (homme ou femme), race/origine ethnique (blanc, noir, latin, asiatique, multiracial) et chaque évaluateur a évalué tous les éléments. Chaque évaluateur a évalué toutes les conversations. Chaque conversation comporte 123 évaluations uniques. Le nombre total de lignes dans cet ensemble de données est de 43 050.
Taille du téléchargement : 29.70 MiB
Taille de l'ensemble de données : 74.43 MiB
Mise en cache automatique ( documentation ) : Oui
Divisions :

Diviser	Exemples
`'train'`	43 050

Structure des fonctionnalités :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D	Description
	FonctionnalitésDict
Q1_whole_conversation_evaluation	Étiquette de classe		int64	Évaluation de la compréhensibilité d'une conversation.
Q2_harmful_content_dangerous_content	Étiquette de classe		int64
Q2_harmful_content_derogation_of_boat	Étiquette de classe		int64
T2_harmful_content_insensitive	Étiquette de classe		int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice	Étiquette de classe		int64
Q2_harmful_content_obscene_and_profane	Étiquette de classe		int64
Q2_harmful_content_other	Étiquette de classe		int64
Q2_harmful_content_overall	Étiquette de classe		int64
Q2_harmful_content_personal_information	Étiquette de classe		int64
Q2_harmful_content_regulated_goods	Étiquette de classe		int64
Q2_harmful_content_sexually_suggestive_content	Étiquette de classe		int64
Q3_bias_other	Étiquette de classe		int64
Q3_bias_overall	Étiquette de classe		int64
Q3_bias_targeting_beliefs	Étiquette de classe		int64
Q3_bias_targeting_gender_sexual_orientation	Étiquette de classe		int64
Q3_bias_targeting_inherited_attributes	Étiquette de classe		int64
Q3_bias_targeting_status	Étiquette de classe		int64
Q4_désinformation	Étiquette de classe		int64
Q5_politique_affiliation	Étiquette de classe		int64
Q6_policy_guidelines_making_endorsement	Étiquette de classe		int64
Q6_policy_guidelines_other	Étiquette de classe		int64
Q6_policy_guidelines_overall	Étiquette de classe		int64
Q6_policy_guidelines_polarizing_topics	Étiquette de classe		int64
Q_global	Étiquette de classe		int64
réponse_time_ms	Scalaire		int64	Temps passé par chaque évaluateur sur chaque question d'annotation de sécurité.
réponse_horodatage	Scalaire		int64	Heure à laquelle chaque conversation a été évaluée par chaque évaluateur.
contexte	Texte		chaîne	La conversation tourne avant la réponse finale du chatbot.
degré_de_préjudice	Étiquette de classe		int64	Évaluation annotée à la main de la gravité du risque de sécurité.
type_harcèlement	Séquence (ClassLabel)	(Aucun,)	int64	Sujet(s) de conversation préjudiciable annoté à la main.
identifiant	Scalaire		int64	Identificateur numérique pour chaque ligne, représentant toutes les évaluations d'un seul évaluateur pour une seule conversation.
article_id	Scalaire		int64	Identifiant numérique pour chaque conversation.
phase	Étiquette de classe		int64	Une des trois périodes distinctes.
évaluateur_age	Étiquette de classe		int64	La tranche d’âge de l’évaluateur.
évaluateur_éducation	Étiquette de classe		int64	La formation de l'évaluateur.
évaluateur_genre	Étiquette de classe		int64	Le sexe de l'évaluateur.
évaluateur_id	Scalaire		int64	Identifiant numérique pour chaque évaluateur.
évaluateur_race	Étiquette de classe		int64	La race/origine ethnique de l'évaluateur.
rater_raw_race	Texte		chaîne	La race/origine ethnique brute autodéclarée par l'évaluateur, avant simplification en cinq catégories.
réponse	Texte		chaîne	La réponse finale du chatbot dans la conversation.
sécurité_or	Étiquette de classe		int64	Le label de sécurité de référence fourni par des experts.
sécurité_gold_reason	Texte		chaîne	La ou les raisons (si elles sont données) du label de sécurité or fournies par des experts.

Exemples ( tfds.as_dataframe ) :

dés/990

Description de la configuration : L'ensemble de données 990 contient 990 conversations évaluées par un pool d'évaluateurs diversifié de 173 évaluateurs uniques. Chaque conversation est évaluée selon trois catégories de sécurité de premier niveau et une question globale de compréhension de la conversation. Les évaluateurs ont été recrutés de manière à ce que le nombre d'évaluateurs pour chaque conversation soit équilibré par sexe (homme, femme) et lieu (États-Unis, Inde). Chaque évaluateur n’a évalué qu’un échantillon de la conversation. Chaque conversation comporte 60 à 70 évaluations uniques. Le nombre total de lignes dans cet ensemble de données est de 72 103.
Taille du téléchargement : 48.06 MiB
Taille de l'ensemble de données : 150.38 MiB
Mise en cache automatique ( documentation ) : uniquement lorsque shuffle_files=False (train)
Divisions :

Diviser	Exemples
`'train'`	72 103

Structure des fonctionnalités :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Documentation des fonctionnalités :

Fonctionnalité	Classe	Forme	Type D	Description
	FonctionnalitésDict
Q1_whole_conversation_evaluation	Étiquette de classe		int64	Évaluation de la compréhensibilité d'une conversation.
Q2_harmful_content_explicitly_sexual	Étiquette de classe		int64
T2_harmful_content_financial_advice	Étiquette de classe		int64
Q2_harmful_content_harm_to_people_or_animals	Étiquette de classe		int64
Q2_harmful_content_health_and_safety_claims	Étiquette de classe		int64
Q2_harmful_content_how_tos_about_harmful_activities	Étiquette de classe		int64
Q2_harmful_content_obscenities_or_profanities	Étiquette de classe		int64
Q2_harmful_content_other	Étiquette de classe		int64
Q2_harmful_content_overall	Étiquette de classe		int64
Q2_harmful_content_personal_information	Étiquette de classe		int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods	Étiquette de classe		int64
Q2_harmful_content_promotes_or_condones_violence	Étiquette de classe		int64
Q2_harmful_content_violent_or_gory	Étiquette de classe		int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above	Étiquette de classe		int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious	Étiquette de classe		int64
Q3_bias_incites_hatred	Étiquette de classe		int64
Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction	Étiquette de classe		int64
Q3_bias_other	Étiquette de classe		int64
Q3_bias_physically_or_mentally_inferior	Étiquette de classe		int64
Q3_bias_subhuman_comparisons	Étiquette de classe		int64
Q3_bias_superiority_or_subjugation_of_a_group	Étiquette de classe		int64
T3_unfair_bias_overall	Étiquette de classe		int64
T4_misinformation_conspiracy_theories	Étiquette de classe		int64
T4_misinformation_contradicts_expert_consensus	Étiquette de classe		int64
Q4_misinformation_false_theories	Étiquette de classe		int64
T4_misinformation_other	Étiquette de classe		int64
T4_misinformation_overall	Étiquette de classe		int64
T4_misinformation_politique	Étiquette de classe		int64
Q_global	Étiquette de classe		int64
contexte	Texte		chaîne	La conversation tourne avant la réponse finale du chatbot.
degré_de_préjudice	Étiquette de classe		int64	Évaluation annotée à la main de la gravité du risque de sécurité.
type_harcèlement	Séquence (ClassLabel)	(Aucun,)	int64	Sujet(s) de conversation préjudiciable annoté à la main.
identifiant	Scalaire		int64	Identificateur numérique pour chaque ligne, représentant toutes les évaluations d'un seul évaluateur pour une seule conversation.
article_id	Scalaire		int64	Identifiant numérique pour chaque conversation.
phase	Étiquette de classe		int64	Une des trois périodes distinctes.
évaluateur_age	Étiquette de classe		int64	La tranche d’âge de l’évaluateur.
évaluateur_éducation	Étiquette de classe		int64	La formation de l'évaluateur.
évaluateur_genre	Étiquette de classe		int64	Le sexe de l'évaluateur.
évaluateur_id	Scalaire		int64	Identifiant numérique pour chaque évaluateur.
évaluateur_locale	Étiquette de classe		int64	Paramètres régionaux de l'évaluateur.
évaluateur_race	Étiquette de classe		int64	La race/origine ethnique de l'évaluateur.
rater_raw_race	Texte		chaîne	La race/origine ethnique brute autodéclarée par l'évaluateur, avant simplification en cinq catégories.
réponse	Texte		chaîne	La réponse finale du chatbot dans la conversation.

Exemples ( tfds.as_dataframe ) :

dés Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

L'ensemble de données sur la diversité dans l'évaluation de la sécurité de l'IA conversationnelle ( DICES )

dés/350 (configuration par défaut)

dés/990

dés