zar

  • Tanım :

Güvenlik için Konuşmaya Dayalı Yapay Zeka Değerlendirmesindeki Çeşitlilik ( DICES ) veri kümesi

Makine öğrenimi yaklaşımları genellikle olumlu ve olumsuz örnekler arasında net bir ayrım gerektiren veri kümeleriyle eğitilir ve değerlendirilir. Bu yaklaşım, birçok görev ve içerik öğesinde mevcut olan doğal öznelliği aşırı derecede basitleştirir. Aynı zamanda insan algı ve görüşlerindeki doğal çeşitliliği de gizler. İnsanlardaki içerik ve çeşitlilikteki çeşitliliği korumaya çalışan görevler genellikle oldukça pahalı ve zahmetlidir. Bu boşluğu doldurmak ve daha derinlemesine model performans analizlerini kolaylaştırmak için, yapay zeka tarafından oluşturulan konuşmaların güvenliğine ilişkin farklı perspektiflere sahip benzersiz bir veri kümesi olan DICES veri kümesini öneriyoruz. Konuşmaya dayalı yapay zeka sistemlerinin güvenlik değerlendirmesi görevine odaklanıyoruz. DICES veri seti, her bir değerlendirici hakkında ayrıntılı demografik bilgiler içerir, daha ileri analizlerin istatistiksel anlamlılığını sağlamak için konuşma başına benzersiz derecelendirmelerin son derece yüksek bir şekilde kopyalanmasını içerir ve farklı derecelendirme toplama stratejilerinin derinlemesine araştırılmasına olanak sağlamak için değerlendirici oylarını farklı demografik yapılara göre dağılımlar olarak kodlar.

Bu veri seti, konuşmaya dayalı yapay zekanın güvenliği bağlamında varyansı, belirsizliği ve çeşitliliği gözlemlemek ve ölçmek için çok uygundur. Veri kümesine, değerlendirici çeşitliliğinin farklı coğrafi bölgelerden, etnik köken gruplarından, yaş gruplarından ve cinsiyetlerden değerlendiricilerin güvenlik algısını nasıl etkilediğini gösteren bir dizi ölçümü açıklayan bir makale eşlik etmektedir. DICES veri kümesinin amacı, konuşmaya dayalı yapay zeka sistemlerinin güvenlik değerlendirmesi için ortak bir kıyaslama olarak kullanılmaktır.

İÇERİK UYARISI : Bu veri kümesi, saldırgan olabilecek saldırgan konuşma örneklerini içermektedir.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Veri kümesi 350, 123 benzersiz değerlendiriciden oluşan çeşitli değerlendirici havuzu tarafından derecelendirilen 350 konuşmayı içerir. Her görüşme, beş üst düzey güvenlik kategorisi ve görüşmeye ilişkin bir genel anlama sorusuyla derecelendirilir. Değerlendiriciler cinsiyete (erkek veya kadın), ırk/etnik kökene (Beyaz, Siyah, Latin, Asyalı, Çok Irklı) göre dengelendi ve her değerlendirici tüm maddeleri derecelendirdi. Her değerlendirici tüm konuşmaları derecelendirdi. Her görüşmenin 123 benzersiz derecelendirmesi vardır. Bu veri setindeki toplam satır sayısı 43050'dir.

  • İndirme boyutu : 29.70 MiB

  • Veri kümesi boyutu : 74.43 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Evet

  • Bölünmeler :

Bölmek Örnekler
'train' 43.050
  • Özellik yapısı :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
Q1_whole_conversation_evaluation SınıfEtiketi int64 Bir konuşmanın anlaşılabilirliğine ilişkin derecelendirme.
Q2_harmful_content_dangerous_content SınıfEtiketi int64
Q2_harmful_content_derogation_of_boat SınıfEtiketi int64
Q2_harmful_content_in sensitive SınıfEtiketi int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice SınıfEtiketi int64
Q2_harmful_content_obscene_and_profane SınıfEtiketi int64
Q2_harmful_content_other SınıfEtiketi int64
Q2_harmful_content_overall SınıfEtiketi int64
Q2_harmful_content_personal_information SınıfEtiketi int64
Q2_harmful_content_regulated_goods SınıfEtiketi int64
Q2_harmful_content_sekssel_suggestive_content SınıfEtiketi int64
Q3_bias_other SınıfEtiketi int64
Q3_bias_overall SınıfEtiketi int64
Q3_bias_targeting_beliefs SınıfEtiketi int64
Q3_bias_targeting_gender_seksüel_orientation SınıfEtiketi int64
Q3_bias_targeting_inherited_attributes SınıfEtiketi int64
Q3_bias_targeting_status SınıfEtiketi int64
Q4_yanlış bilgi SınıfEtiketi int64
Q5_political_affiliation SınıfEtiketi int64
Q6_policy_guidelines_making_endorsement SınıfEtiketi int64
S6_policy_guidelines_other SınıfEtiketi int64
Q6_policy_guidelines_overall SınıfEtiketi int64
Q6_policy_guidelines_polarizing_topics SınıfEtiketi int64
Q_overall SınıfEtiketi int64
answer_time_ms Skaler int64 Her değerlendiricinin her bir güvenlik açıklaması sorusu için harcadığı süre.
answer_timestamp Skaler int64 Her görüşmenin her değerlendirici tarafından derecelendirildiği zaman.
bağlam Metin sicim Sohbet, son chatbot yanıtından önce dönüyor.
derece_of_harm SınıfEtiketi int64 Güvenlik riskinin ciddiyetine ilişkin elle açıklamalı derecelendirme.
zarar_tipi Sıra(SınıfEtiketi) (Hiçbiri,) int64 Konuşmanın elle açıklamalı zarar konu(lar)ı.
İD Skaler int64 Her satır için, tek bir değerlendiricinin tek bir görüşmeye verdiği tüm derecelendirmeleri temsil eden sayısal tanımlayıcı.
item_id Skaler int64 Her görüşme için sayısal tanımlayıcı.
faz SınıfEtiketi int64 Üç farklı zaman diliminden biri.
değerlendirici_yaşı SınıfEtiketi int64 Değerlendiricinin yaş grubu.
değerlendirici_eğitim SınıfEtiketi int64 Değerlendiricinin eğitimi.
değerlendirici_gender SınıfEtiketi int64 Değerlendiricinin cinsiyeti.
değerlendirici_id Skaler int64 Her değerlendirici için sayısal tanımlayıcı.
değerlendirici_race SınıfEtiketi int64 Değerlendiricinin ırkı/etnik kökeni.
rater_raw_race Metin sicim Beş kategoriye basitleştirmeden önce, değerlendiricinin kendisi tarafından bildirilen ham ırk/etnik köken.
cevap Metin sicim Konuşmadaki son chatbot yanıtı.
güvenlik_gold SınıfEtiketi int64 Uzmanlar tarafından sağlanan altın standart güvenlik etiketi.
Safety_gold_reason Metin sicim Uzmanlar tarafından sağlanan altın güvenlik etiketinin nedenleri (varsa).

zar/990

  • Yapılandırma açıklaması : Veri kümesi 990, 173 benzersiz değerlendiriciden oluşan çeşitli değerlendirici havuzu tarafından derecelendirilen 990 konuşmayı içerir. Her konuşma, üç üst düzey güvenlik kategorisi ve bir genel konuşma anlama sorusuyla derecelendirilir. Değerlendiriciler, her görüşme için değerlendirici sayısının cinsiyete (Erkek, Kadın) ve bölgeye (ABD, Hindistan) göre dengeleneceği şekilde işe alındı. Her değerlendirici yalnızca konuşmanın bir örneğini derecelendirdi. Her görüşmenin 60-70 benzersiz derecelendirmesi vardır. Bu veri setindeki toplam satır sayısı 72103'tür.

  • İndirme boyutu : 48.06 MiB

  • Veri kümesi boyutu : 150.38 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Yalnızca shuffle_files=False (train) olduğunda

  • Bölünmeler :

Bölmek Örnekler
'train' 72.103
  • Özellik yapısı :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
Q1_whole_conversation_evaluation SınıfEtiketi int64 Bir konuşmanın anlaşılabilirliğine ilişkin derecelendirme.
Q2_harmful_content_explicitly_seksüel SınıfEtiketi int64
Q2_harmful_content_financial_advice SınıfEtiketi int64
Q2_harmful_content_harm_to_people_or_animals SınıfEtiketi int64
Q2_harmful_content_health_and_safety_claims SınıfEtiketi int64
Q2_harmful_content_how_tos_about_harmful_activities SınıfEtiketi int64
Q2_harmful_content_obscenities_or_profanities SınıfEtiketi int64
Q2_harmful_content_other SınıfEtiketi int64
Q2_harmful_content_overall SınıfEtiketi int64
Q2_harmful_content_personal_information SınıfEtiketi int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods SınıfEtiketi int64
Q2_harmful_content_promotes_or_condones_violence SınıfEtiketi int64
Q2_harmful_content_violent_or_gory SınıfEtiketi int64
Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_ Based_on_any_of_the_attributes_noted_above SınıfEtiketi int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious SınıfEtiketi int64
Q3_bias_incites_hatred SınıfEtiketi int64
Q3_bias_insults_about_emotional_romantic_and_or_seksüel_attraction SınıfEtiketi int64
Q3_bias_other SınıfEtiketi int64
Q3_bias_physically_or_mentally_inferior SınıfEtiketi int64
Q3_bias_subhuman_comparisons SınıfEtiketi int64
Q3_bias_superiority_or_subjugation_of_a_group SınıfEtiketi int64
Q3_unfair_bias_overall SınıfEtiketi int64
Q4_yanlış bilgi_komplo_teorileri SınıfEtiketi int64
Q4_misinformation_contradicts_expert_consensus SınıfEtiketi int64
Q4_misformation_false_theories SınıfEtiketi int64
Q4_misformation_other SınıfEtiketi int64
Q4_misformation_overall SınıfEtiketi int64
Q4_yanlış bilgi_politik SınıfEtiketi int64
Q_overall SınıfEtiketi int64
bağlam Metin sicim Sohbet, son chatbot yanıtından önce dönüyor.
derece_of_harm SınıfEtiketi int64 Güvenlik riskinin ciddiyetine ilişkin elle açıklamalı derecelendirme.
zarar_tipi Sıra(SınıfEtiketi) (Hiçbiri,) int64 Konuşmanın elle açıklamalı zarar konu(lar)ı.
İD Skaler int64 Her satır için, tek bir değerlendiricinin tek bir görüşmeye verdiği tüm derecelendirmeleri temsil eden sayısal tanımlayıcı.
item_id Skaler int64 Her görüşme için sayısal tanımlayıcı.
faz SınıfEtiketi int64 Üç farklı zaman diliminden biri.
değerlendirici_yaşı SınıfEtiketi int64 Değerlendiricinin yaş grubu.
değerlendirici_eğitim SınıfEtiketi int64 Değerlendiricinin eğitimi.
değerlendirici_gender SınıfEtiketi int64 Değerlendiricinin cinsiyeti.
değerlendirici_id Skaler int64 Her değerlendirici için sayısal tanımlayıcı.
değerlendirici_locale SınıfEtiketi int64 Değerlendiricinin bulunduğu yer.
değerlendirici_race SınıfEtiketi int64 Değerlendiricinin ırkı/etnik kökeni.
rater_raw_race Metin sicim Beş kategoriye basitleştirmeden önce, değerlendiricinin kendisi tarafından bildirilen ham ırk/etnik köken.
cevap Metin sicim Konuşmadaki son chatbot yanıtı.