zar

Tanım :

Güvenlik için Konuşmaya Dayalı Yapay Zeka Değerlendirmesindeki Çeşitlilik ( DICES ) veri kümesi

Makine öğrenimi yaklaşımları genellikle olumlu ve olumsuz örnekler arasında net bir ayrım gerektiren veri kümeleriyle eğitilir ve değerlendirilir. Bu yaklaşım, birçok görev ve içerik öğesinde mevcut olan doğal öznelliği aşırı derecede basitleştirir. Aynı zamanda insan algı ve görüşlerindeki doğal çeşitliliği de gizler. İnsanlardaki içerik ve çeşitlilikteki çeşitliliği korumaya çalışan görevler genellikle oldukça pahalı ve zahmetlidir. Bu boşluğu doldurmak ve daha derinlemesine model performans analizlerini kolaylaştırmak için, yapay zeka tarafından oluşturulan konuşmaların güvenliğine ilişkin farklı perspektiflere sahip benzersiz bir veri kümesi olan DICES veri kümesini öneriyoruz. Konuşmaya dayalı yapay zeka sistemlerinin güvenlik değerlendirmesi görevine odaklanıyoruz. DICES veri seti, her bir değerlendirici hakkında ayrıntılı demografik bilgiler içerir, daha ileri analizlerin istatistiksel anlamlılığını sağlamak için konuşma başına benzersiz derecelendirmelerin son derece yüksek bir şekilde kopyalanmasını içerir ve farklı derecelendirme toplama stratejilerinin derinlemesine araştırılmasına olanak sağlamak için değerlendirici oylarını farklı demografik yapılara göre dağılımlar olarak kodlar.

Bu veri seti, konuşmaya dayalı yapay zekanın güvenliği bağlamında varyansı, belirsizliği ve çeşitliliği gözlemlemek ve ölçmek için çok uygundur. Veri kümesine, değerlendirici çeşitliliğinin farklı coğrafi bölgelerden, etnik köken gruplarından, yaş gruplarından ve cinsiyetlerden değerlendiricilerin güvenlik algısını nasıl etkilediğini gösteren bir dizi ölçümü açıklayan bir makale eşlik etmektedir. DICES veri kümesinin amacı, konuşmaya dayalı yapay zeka sistemlerinin güvenlik değerlendirmesi için ortak bir kıyaslama olarak kullanılmaktır.

İÇERİK UYARISI : Bu veri kümesi, saldırgan olabilecek saldırgan konuşma örneklerini içermektedir.

Ana sayfa : https://github.com/google-research-datasets/dices-dataset
Kaynak kodu : tfds.datasets.dices.Builder
Sürümler :
- 1.0.0 (varsayılan): İlk sürüm.
Denetlenen anahtarlar ( as_supervised belgesine bakın): None
Şekil ( tfds.show_examples ): Desteklenmiyor.
Alıntı :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (varsayılan yapılandırma)

Yapılandırma açıklaması : Veri kümesi 350, 123 benzersiz değerlendiriciden oluşan çeşitli değerlendirici havuzu tarafından derecelendirilen 350 konuşmayı içerir. Her görüşme, beş üst düzey güvenlik kategorisi ve görüşmeye ilişkin bir genel anlama sorusuyla derecelendirilir. Değerlendiriciler cinsiyete (erkek veya kadın), ırk/etnik kökene (Beyaz, Siyah, Latin, Asyalı, Çok Irklı) göre dengelendi ve her değerlendirici tüm maddeleri derecelendirdi. Her değerlendirici tüm konuşmaları derecelendirdi. Her görüşmenin 123 benzersiz derecelendirmesi vardır. Bu veri setindeki toplam satır sayısı 43050'dir.
İndirme boyutu : 29.70 MiB
Veri kümesi boyutu : 74.43 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölünmeler :

Bölmek	Örnekler
`'train'`	43.050

Özellik yapısı :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi	Tanım
	ÖzelliklerDict
Q1_whole_conversation_evaluation	SınıfEtiketi		int64	Bir konuşmanın anlaşılabilirliğine ilişkin derecelendirme.
Q2_harmful_content_dangerous_content	SınıfEtiketi		int64
Q2_harmful_content_derogation_of_boat	SınıfEtiketi		int64
Q2_harmful_content_in sensitive	SınıfEtiketi		int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice	SınıfEtiketi		int64
Q2_harmful_content_obscene_and_profane	SınıfEtiketi		int64
Q2_harmful_content_other	SınıfEtiketi		int64
Q2_harmful_content_overall	SınıfEtiketi		int64
Q2_harmful_content_personal_information	SınıfEtiketi		int64
Q2_harmful_content_regulated_goods	SınıfEtiketi		int64
Q2_harmful_content_sekssel_suggestive_content	SınıfEtiketi		int64
Q3_bias_other	SınıfEtiketi		int64
Q3_bias_overall	SınıfEtiketi		int64
Q3_bias_targeting_beliefs	SınıfEtiketi		int64
Q3_bias_targeting_gender_seksüel_orientation	SınıfEtiketi		int64
Q3_bias_targeting_inherited_attributes	SınıfEtiketi		int64
Q3_bias_targeting_status	SınıfEtiketi		int64
Q4_yanlış bilgi	SınıfEtiketi		int64
Q5_political_affiliation	SınıfEtiketi		int64
Q6_policy_guidelines_making_endorsement	SınıfEtiketi		int64
S6_policy_guidelines_other	SınıfEtiketi		int64
Q6_policy_guidelines_overall	SınıfEtiketi		int64
Q6_policy_guidelines_polarizing_topics	SınıfEtiketi		int64
Q_overall	SınıfEtiketi		int64
answer_time_ms	Skaler		int64	Her değerlendiricinin her bir güvenlik açıklaması sorusu için harcadığı süre.
answer_timestamp	Skaler		int64	Her görüşmenin her değerlendirici tarafından derecelendirildiği zaman.
bağlam	Metin		sicim	Sohbet, son chatbot yanıtından önce dönüyor.
derece_of_harm	SınıfEtiketi		int64	Güvenlik riskinin ciddiyetine ilişkin elle açıklamalı derecelendirme.
zarar_tipi	Sıra(SınıfEtiketi)	(Hiçbiri,)	int64	Konuşmanın elle açıklamalı zarar konu(lar)ı.
İD	Skaler		int64	Her satır için, tek bir değerlendiricinin tek bir görüşmeye verdiği tüm derecelendirmeleri temsil eden sayısal tanımlayıcı.
item_id	Skaler		int64	Her görüşme için sayısal tanımlayıcı.
faz	SınıfEtiketi		int64	Üç farklı zaman diliminden biri.
değerlendirici_yaşı	SınıfEtiketi		int64	Değerlendiricinin yaş grubu.
değerlendirici_eğitim	SınıfEtiketi		int64	Değerlendiricinin eğitimi.
değerlendirici_gender	SınıfEtiketi		int64	Değerlendiricinin cinsiyeti.
değerlendirici_id	Skaler		int64	Her değerlendirici için sayısal tanımlayıcı.
değerlendirici_race	SınıfEtiketi		int64	Değerlendiricinin ırkı/etnik kökeni.
rater_raw_race	Metin		sicim	Beş kategoriye basitleştirmeden önce, değerlendiricinin kendisi tarafından bildirilen ham ırk/etnik köken.
cevap	Metin		sicim	Konuşmadaki son chatbot yanıtı.
güvenlik_gold	SınıfEtiketi		int64	Uzmanlar tarafından sağlanan altın standart güvenlik etiketi.
Safety_gold_reason	Metin		sicim	Uzmanlar tarafından sağlanan altın güvenlik etiketinin nedenleri (varsa).

Örnekler ( tfds.as_dataframe ):

zar/990

Yapılandırma açıklaması : Veri kümesi 990, 173 benzersiz değerlendiriciden oluşan çeşitli değerlendirici havuzu tarafından derecelendirilen 990 konuşmayı içerir. Her konuşma, üç üst düzey güvenlik kategorisi ve bir genel konuşma anlama sorusuyla derecelendirilir. Değerlendiriciler, her görüşme için değerlendirici sayısının cinsiyete (Erkek, Kadın) ve bölgeye (ABD, Hindistan) göre dengeleneceği şekilde işe alındı. Her değerlendirici yalnızca konuşmanın bir örneğini derecelendirdi. Her görüşmenin 60-70 benzersiz derecelendirmesi vardır. Bu veri setindeki toplam satır sayısı 72103'tür.
İndirme boyutu : 48.06 MiB
Veri kümesi boyutu : 150.38 MiB
Otomatik önbelleğe alınmış ( belgeler ): Yalnızca shuffle_files=False (train) olduğunda
Bölünmeler :

Bölmek	Örnekler
`'train'`	72.103

Özellik yapısı :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Özellik belgeleri :

Özellik	Sınıf	Şekil	Dtipi	Tanım
	ÖzelliklerDict
Q1_whole_conversation_evaluation	SınıfEtiketi		int64	Bir konuşmanın anlaşılabilirliğine ilişkin derecelendirme.
Q2_harmful_content_explicitly_seksüel	SınıfEtiketi		int64
Q2_harmful_content_financial_advice	SınıfEtiketi		int64
Q2_harmful_content_harm_to_people_or_animals	SınıfEtiketi		int64
Q2_harmful_content_health_and_safety_claims	SınıfEtiketi		int64
Q2_harmful_content_how_tos_about_harmful_activities	SınıfEtiketi		int64
Q2_harmful_content_obscenities_or_profanities	SınıfEtiketi		int64
Q2_harmful_content_other	SınıfEtiketi		int64
Q2_harmful_content_overall	SınıfEtiketi		int64
Q2_harmful_content_personal_information	SınıfEtiketi		int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods	SınıfEtiketi		int64
Q2_harmful_content_promotes_or_condones_violence	SınıfEtiketi		int64
Q2_harmful_content_violent_or_gory	SınıfEtiketi		int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_ Based_on_any_of_the_attributes_noted_above	SınıfEtiketi		int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious	SınıfEtiketi		int64
Q3_bias_incites_hatred	SınıfEtiketi		int64
Q3_bias_insults_about_emotional_romantic_and_or_seksüel_attraction	SınıfEtiketi		int64
Q3_bias_other	SınıfEtiketi		int64
Q3_bias_physically_or_mentally_inferior	SınıfEtiketi		int64
Q3_bias_subhuman_comparisons	SınıfEtiketi		int64
Q3_bias_superiority_or_subjugation_of_a_group	SınıfEtiketi		int64
Q3_unfair_bias_overall	SınıfEtiketi		int64
Q4_yanlış bilgi_komplo_teorileri	SınıfEtiketi		int64
Q4_misinformation_contradicts_expert_consensus	SınıfEtiketi		int64
Q4_misformation_false_theories	SınıfEtiketi		int64
Q4_misformation_other	SınıfEtiketi		int64
Q4_misformation_overall	SınıfEtiketi		int64
Q4_yanlış bilgi_politik	SınıfEtiketi		int64
Q_overall	SınıfEtiketi		int64
bağlam	Metin		sicim	Sohbet, son chatbot yanıtından önce dönüyor.
derece_of_harm	SınıfEtiketi		int64	Güvenlik riskinin ciddiyetine ilişkin elle açıklamalı derecelendirme.
zarar_tipi	Sıra(SınıfEtiketi)	(Hiçbiri,)	int64	Konuşmanın elle açıklamalı zarar konu(lar)ı.
İD	Skaler		int64	Her satır için, tek bir değerlendiricinin tek bir görüşmeye verdiği tüm derecelendirmeleri temsil eden sayısal tanımlayıcı.
item_id	Skaler		int64	Her görüşme için sayısal tanımlayıcı.
faz	SınıfEtiketi		int64	Üç farklı zaman diliminden biri.
değerlendirici_yaşı	SınıfEtiketi		int64	Değerlendiricinin yaş grubu.
değerlendirici_eğitim	SınıfEtiketi		int64	Değerlendiricinin eğitimi.
değerlendirici_gender	SınıfEtiketi		int64	Değerlendiricinin cinsiyeti.
değerlendirici_id	Skaler		int64	Her değerlendirici için sayısal tanımlayıcı.
değerlendirici_locale	SınıfEtiketi		int64	Değerlendiricinin bulunduğu yer.
değerlendirici_race	SınıfEtiketi		int64	Değerlendiricinin ırkı/etnik kökeni.
rater_raw_race	Metin		sicim	Beş kategoriye basitleştirmeden önce, değerlendiricinin kendisi tarafından bildirilen ham ırk/etnik köken.
cevap	Metin		sicim	Konuşmadaki son chatbot yanıtı.

Örnekler ( tfds.as_dataframe ):