dadi

Descrizione :

Il set di dati Diversity in Conversational AI Evaluation for Safety ( DICES ).

Gli approcci al machine learning vengono spesso addestrati e valutati con set di dati che richiedono una chiara separazione tra esempi positivi e negativi. Questo approccio semplifica eccessivamente la naturale soggettività presente in molti compiti e contenuti. Inoltre oscura la diversità intrinseca nelle percezioni e nelle opinioni umane. Spesso i compiti che tentano di preservare la varianza dei contenuti e la diversità negli esseri umani sono piuttosto costosi e laboriosi. Per colmare questa lacuna e facilitare analisi più approfondite delle prestazioni del modello, proponiamo il set di dati DICES, un set di dati unico con diverse prospettive sulla sicurezza delle conversazioni generate dall'intelligenza artificiale. Ci concentriamo sul compito di valutazione della sicurezza dei sistemi di intelligenza artificiale conversazionale. Il set di dati DICES contiene informazioni demografiche dettagliate su ciascun valutatore, una replica estremamente elevata di valutazioni uniche per conversazione per garantire la significatività statistica di ulteriori analisi e codifica i voti dei valutatori come distribuzioni tra diversi dati demografici per consentire esplorazioni approfondite di diverse strategie di aggregazione delle valutazioni.

Questo set di dati è particolarmente adatto per osservare e misurare la varianza, l'ambiguità e la diversità nel contesto della sicurezza dell'IA conversazionale. Il set di dati è accompagnato da un documento che descrive una serie di parametri che mostrano come la diversità dei valutatori influenza la percezione di sicurezza dei valutatori provenienti da diverse regioni geografiche, gruppi etnici, fasce di età e generi. L’obiettivo del set di dati DICES è quello di essere utilizzato come punto di riferimento condiviso per la valutazione della sicurezza dei sistemi di intelligenza artificiale conversazionale.

AVVISO SUL CONTENUTO : questo set di dati contiene esempi contraddittori di conversazioni che potrebbero essere offensive.

Home page : https://github.com/google-research-datasets/dices-dataset
Codice sorgente : tfds.datasets.dices.Builder
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Chiavi supervisionate (vedi il documento as_supervised ): None
Figura ( tfds.show_examples ): non supportato.
Citazione :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (configurazione predefinita)

Descrizione della configurazione : il set di dati 350 contiene 350 conversazioni valutate da un pool di valutatori diversificato di 123 valutatori unici. Ogni conversazione viene valutata con cinque categorie di sicurezza di primo livello e una domanda di comprensione generale della conversazione. I valutatori reclutati erano bilanciati per genere (uomo o donna), razza/etnia (bianco, nero, latino, asiatico, multirazziale) e ciascun valutatore ha valutato tutti gli elementi. Ciascun valutatore ha valutato tutte le conversazioni. Ogni conversazione ha 123 valutazioni uniche. Il numero totale di righe in questo set di dati è 43050.
Dimensione download : 29.70 MiB
Dimensione del set di dati : 74.43 MiB
Memorizzazione nella cache automatica ( documentazione ): sì
Divide :

Diviso	Esempi
`'train'`	43.050

Struttura delle caratteristiche :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64, description=Amount of time spent by each rater on each safety annotation question.),
    'answer_timestamp': Scalar(shape=(), dtype=int64, description=Time when each conversation was rated by each rater.),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D	Descrizione
	CaratteristicheDict
Q1_valutazione_intera_conversazione	ClassLabel		int64	Valutazione sulla comprensibilità di una conversazione.
Q2_contenuti_dannosi_contenuti_pericolosi	ClassLabel		int64
Q2_contenuto_dannoso_derogazione_della_barca	ClassLabel		int64
Q2_dannoso_contenuto_insensibile	ClassLabel		int64
Q2_contenuti_dannosi_consigli_medico_legali_finanziari_o_relazionali	ClassLabel		int64
Q2_contenuto_dannoso_osceno_e_profano	ClassLabel		int64
Q2_contenuti_dannosi_altro	ClassLabel		int64
Q2_contenuti_dannosi_nel complesso	ClassLabel		int64
Q2_contenuti_dannosi_informazioni_personali	ClassLabel		int64
Q2_contenuto_dannoso_merci_regolamentate	ClassLabel		int64
Q2_contenuti_dannosi_contenuti_sessualmente_suggestivi	ClassLabel		int64
Q3_bias_altro	ClassLabel		int64
Q3_bias_complessivo	ClassLabel		int64
Q3_bias_targeting_beliefs	ClassLabel		int64
Q3_bias_targeting_gender_sessuale_orientamento	ClassLabel		int64
Q3_bias_targeting_inherited_attributes	ClassLabel		int64
Q3_bias_targeting_status	ClassLabel		int64
Q4_disinformazione	ClassLabel		int64
Q5_affiliazione_politica	ClassLabel		int64
Q6_policy_guidelines_making_endorsement	ClassLabel		int64
Q6_policy_guidelines_other	ClassLabel		int64
Q6_policy_guidelines_overall	ClassLabel		int64
Q6_policy_guidelines_polarizing_topics	ClassLabel		int64
Q_nel complesso	ClassLabel		int64
risposta_ora_ms	Scalare		int64	Quantità di tempo trascorso da ciascun valutatore su ciascuna domanda di annotazione di sicurezza.
risposta_timestamp	Scalare		int64	Ora in cui ogni conversazione è stata valutata da ciascun valutatore.
contesto	Testo		corda	La conversazione si svolge prima della risposta finale del chatbot.
grado_di_danno	ClassLabel		int64	Valutazione annotata manualmente della gravità del rischio per la sicurezza.
tipo_danno	Sequenza(ClassLabel)	(Nessuno,)	int64	Argomenti di conversazione sui danni annotati manualmente.
id	Scalare		int64	Identificatore numerico per ogni riga, che rappresenta tutte le valutazioni di un singolo valutatore per una singola conversazione.
articolo_id	Scalare		int64	Identificatore numerico per ogni conversazione.
fase	ClassLabel		int64	Uno dei tre periodi di tempo distinti.
rater_age	ClassLabel		int64	La fascia di età del valutatore.
rater_education	ClassLabel		int64	L'educazione del valutatore.
rater_gender	ClassLabel		int64	Il genere del valutatore.
rater_id	Scalare		int64	Identificatore numerico per ciascun valutatore.
rater_race	ClassLabel		int64	La razza/etnia del valutatore.
rater_raw_race	Testo		corda	La razza/etnia grezza auto-riferita del valutatore, prima della semplificazione in cinque categorie.
risposta	Testo		corda	La risposta finale del chatbot nella conversazione.
safety_gold	ClassLabel		int64	L'etichetta di sicurezza standard di riferimento fornita dagli esperti.
safety_gold_reason	Testo		corda	I motivi (se forniti) dell'etichetta di sicurezza Gold forniti da esperti.

Esempi ( tfds.as_dataframe ):

dadi/990

Descrizione della configurazione : il set di dati 990 contiene 990 conversazioni valutate da un pool di valutatori diversificato di 173 valutatori unici. Ogni conversazione viene valutata con tre categorie di sicurezza di primo livello e una domanda generale sulla comprensione della conversazione. I valutatori sono stati reclutati in modo che il numero di valutatori per ciascuna conversazione fosse bilanciato in base al genere (uomo, donna) e al luogo (Stati Uniti, India). Ciascun valutatore ha valutato solo un campione della conversazione. Ogni conversazione ha 60-70 valutazioni uniche. Il numero totale di righe in questo set di dati è 72103.
Dimensione download : 48.06 MiB
Dimensione del set di dati : 150.38 MiB
Memorizzato automaticamente nella cache ( documentazione ): solo quando shuffle_files=False (train)
Divide :

Diviso	Esempi
`'train'`	72.103

Struttura delle caratteristiche :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each row, representing all ratings by a single rater to a single conversation.),
    'item_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each conversation.),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64, description=Numerical identifier for each rater.),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D	Descrizione
	CaratteristicheDict
Q1_valutazione_intera_conversazione	ClassLabel		int64	Valutazione sulla comprensibilità di una conversazione.
Q2_contenuti_dannosi_esplicitamente_sessuali	ClassLabel		int64
Q2_contenuti_dannosi_consigli_finanziari	ClassLabel		int64
Q2_contenuti_dannosi_danno_a_persone_o_animali	ClassLabel		int64
Q2_harmful_content_health_and_safety_claims	ClassLabel		int64
Q2_harmful_content_how_tos_about_harmful_activities	ClassLabel		int64
Q2_contenuti_dannosi_oscenità_o_profanità	ClassLabel		int64
Q2_contenuti_dannosi_altro	ClassLabel		int64
Q2_contenuti_dannosi_nel complesso	ClassLabel		int64
Q2_contenuti_dannosi_informazioni_personali	ClassLabel		int64
Q2_contenuto_dannoso_promuove_o_condona_l'uso_di_beni_nocivi_regolamentati	ClassLabel		int64
Q2_harmful_content_promuove_o_condona_la_violenza	ClassLabel		int64
Q2_harmful_content_violent_or_gory	ClassLabel		int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above	ClassLabel		int64
Q3_chiamate_pregiudiziali_individui_o_gruppi_malvagi_corrotti_o_dannosi	ClassLabel		int64
Q3_pregiudizi_incita_all'odio	ClassLabel		int64
Q3_pregiudizi_insulti_su_attrazione_emotiva_romantica_e_o_sessuale	ClassLabel		int64
Q3_bias_altro	ClassLabel		int64
Q3_pregiudizi_fisicamente_o_mentalmente_inferiori	ClassLabel		int64
Q3_pregiudizi_confronti_subumani	ClassLabel		int64
Q3_pregiudizi_superiorità_o_sottomissione_di_un_gruppo	ClassLabel		int64
Q3_pregiudizi_ingiusti_nel complesso	ClassLabel		int64
Q4_disinformazione_teorie_del complotto	ClassLabel		int64
Q4_disinformazione_contraddittori_consenso_esperto	ClassLabel		int64
Q4_disinformazione_false_teorie	ClassLabel		int64
Q4_disinformazione_altro	ClassLabel		int64
Q4_disinformazione_complessiva	ClassLabel		int64
Q4_disinformazione_politica	ClassLabel		int64
Q_nel complesso	ClassLabel		int64
contesto	Testo		corda	La conversazione si svolge prima della risposta finale del chatbot.
grado_di_danno	ClassLabel		int64	Valutazione annotata manualmente della gravità del rischio per la sicurezza.
tipo_danno	Sequenza(ClassLabel)	(Nessuno,)	int64	Argomenti di conversazione sui danni annotati manualmente.
id	Scalare		int64	Identificatore numerico per ogni riga, che rappresenta tutte le valutazioni di un singolo valutatore per una singola conversazione.
articolo_id	Scalare		int64	Identificatore numerico per ogni conversazione.
fase	ClassLabel		int64	Uno dei tre periodi di tempo distinti.
rater_age	ClassLabel		int64	La fascia di età del valutatore.
rater_education	ClassLabel		int64	L'educazione del valutatore.
rater_gender	ClassLabel		int64	Il genere del valutatore.
rater_id	Scalare		int64	Identificatore numerico per ciascun valutatore.
rater_locale	ClassLabel		int64	La località del valutatore.
rater_race	ClassLabel		int64	La razza/etnia del valutatore.
rater_raw_race	Testo		corda	La razza/etnia grezza auto-riferita del valutatore, prima della semplificazione in cinque categorie.
risposta	Testo		corda	La risposta finale del chatbot nella conversazione.

Esempi ( tfds.as_dataframe ):

dadi Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Il set di dati Diversity in Conversational AI Evaluation for Safety ( DICES ).

dices/350 (configurazione predefinita)

dadi/990

dadi