تاس

  • شرح :

مجموعه داده های تنوع در ارزیابی هوش مصنوعی مکالمه برای ایمنی ( DICES ).

رویکردهای یادگیری ماشینی اغلب با مجموعه داده هایی که نیاز به جدایی واضح بین مثال های مثبت و منفی دارند آموزش داده و ارزیابی می شوند. این رویکرد، ذهنیت طبیعی موجود در بسیاری از وظایف و موارد محتوا را بیش از حد ساده می کند. همچنین تنوع ذاتی در ادراکات و نظرات بشر را پنهان می کند. اغلب کارهایی که سعی در حفظ تنوع در محتوا و تنوع در انسان دارند بسیار پرهزینه و پرزحمت هستند. برای پر کردن این شکاف و تسهیل تجزیه و تحلیل عملکرد مدل عمیق تر، ما مجموعه داده DICES را پیشنهاد می کنیم - مجموعه داده ای منحصر به فرد با دیدگاه های متنوع در مورد ایمنی مکالمات ایجاد شده توسط هوش مصنوعی. ما بر وظیفه ارزیابی ایمنی سیستم‌های هوش مصنوعی مکالمه‌ای تمرکز می‌کنیم. مجموعه داده DICES حاوی اطلاعات جمعیتی دقیق در مورد هر رتبه‌دهنده، تکرار بسیار زیاد رتبه‌بندی‌های منحصربه‌فرد در هر مکالمه برای اطمینان از اهمیت آماری تحلیل‌های بیشتر است و آرای ارزیاب را به عنوان توزیع در جمعیت‌های مختلف رمزگذاری می‌کند تا امکان کاوش عمیق در استراتژی‌های تجمیع رتبه‌بندی مختلف را فراهم کند.

این مجموعه داده برای مشاهده و اندازه گیری واریانس، ابهام و تنوع در زمینه ایمنی هوش مصنوعی مکالمه به خوبی مناسب است. مجموعه داده‌ها با مقاله‌ای همراه است که مجموعه‌ای از معیارها را توصیف می‌کند که نشان می‌دهد چگونه تنوع ارزیابی‌کننده بر درک ایمنی ارزیاب‌ها از مناطق جغرافیایی، گروه‌های قومی، گروه‌های سنی و جنسیت‌های مختلف تأثیر می‌گذارد. هدف مجموعه داده DICES این است که به عنوان یک معیار مشترک برای ارزیابی ایمنی سیستم‌های هوش مصنوعی محاوره‌ای استفاده شود.

اخطار محتوا : این مجموعه داده حاوی نمونه‌هایی از مکالمات متخاصم است که ممکن است توهین‌آمیز باشد.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

dices/350 (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه داده 350 شامل 350 مکالمه است که توسط یک گروه ارزیابی متنوع از 123 رتبه‌دهنده منحصربه‌فرد رتبه‌بندی شده‌اند. هر مکالمه با پنج دسته سطح بالای ایمنی و یک سوال درک کلی از مکالمه رتبه بندی می شود. ارزیاب‌ها بر اساس جنسیت (مرد یا زن)، نژاد/قومیت (سفید، سیاه، لاتین، آسیایی، چند نژادی) متعادل بودند و هر رتبه‌بندی به همه موارد امتیاز داد. هر رتبه‌بندی به همه مکالمات امتیاز داد. هر مکالمه دارای 123 رتبه بندی منحصر به فرد است. تعداد کل ردیف های این مجموعه داده 43050 است.

  • حجم دانلود : 29.70 MiB

  • حجم مجموعه داده : 74.43 MiB

  • ذخیره خودکار ( اسناد ): بله

  • تقسیم ها :

شکاف مثال ها
'train' 43,050
  • ساختار ویژگی :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
Q1_hole_conversation_evaluation ClassLabel int64 رتبه بندی در مورد قابل درک بودن یک مکالمه.
Q2_محتوای_مضر_محتوای_خطرناک ClassLabel int64
Q2_محتوای_مضر_تحریف_قایق ClassLabel int64
Q2_محتوای_مضر_غیر حساس ClassLabel int64
Q2_محتوای_مضر_پزشکی_قانونی_مالی_یا_مشاوره_روابط ClassLabel int64
Q2_محتوای_مضر_ زشت_و_مزه ClassLabel int64
Q2_harmful_content_other ClassLabel int64
Q2_harmful_content_all ClassLabel int64
Q2_محتوای_مضر_اطلاعات_شخصی ClassLabel int64
Q2_محتوای_مضر_قانونی_قانونی ClassLabel int64
Q2_محتوای_مضر_جنسی_محتوای_تلقین کننده ClassLabel int64
Q3_bias_other ClassLabel int64
Q3_bias_all ClassLabel int64
Q3_bias_targeting_Beliefs ClassLabel int64
Q3_bias_targeting_gender_sexual orientation ClassLabel int64
Q3_bias_targeting_inherited_attributes ClassLabel int64
Q3_bias_targeting_status ClassLabel int64
Q4_اطلاعات غلط ClassLabel int64
Q5_وابستگی_سیاسی ClassLabel int64
Q6_policy_guidelines_making_andorsement ClassLabel int64
Q6_policy_guidelines_ other ClassLabel int64
Q6_policy_guidelines_all ClassLabel int64
Q6_policy_guidelines_polarizing_topics ClassLabel int64
Q_به طور کلی ClassLabel int64
answer_time_ms اسکالر int64 مقدار زمان صرف شده توسط هر ارزیابی کننده برای هر سوال حاشیه نویسی ایمنی.
answer_timestamp اسکالر int64 زمانی که هر مکالمه توسط هر رتبه‌بندی رتبه‌بندی می‌شد.
متن نوشته متن رشته مکالمه قبل از پاسخ نهایی چت بات می چرخد.
درجه_آسیب ClassLabel int64 رتبه بندی دستی از شدت خطر ایمنی.
نوع_ضرر دنباله (ClassLabel) (هیچ یک،) int64 موضوع(های) آسیب مشروح با دست در گفتگو.
شناسه اسکالر int64 شناسه عددی برای هر ردیف، که همه رتبه‌بندی‌ها را توسط یک رتبه‌دهنده به یک مکالمه نشان می‌دهد.
item_id اسکالر int64 شناسه عددی برای هر مکالمه
فاز ClassLabel int64 یکی از سه دوره زمانی متمایز.
rater_age ClassLabel int64 گروه سنی ارزیاب.
rater_education ClassLabel int64 تحصیلات ارزیاب.
rater_gender ClassLabel int64 جنسیت ارزیاب.
rater_id اسکالر int64 شناسه عددی برای هر ارزیاب
rater_race ClassLabel int64 نژاد/قومیت ارزیاب.
rater_raw_race متن رشته نژاد/قومیت خام ارزیابی‌کننده، قبل از ساده‌سازی به پنج دسته.
واکنش متن رشته پاسخ نهایی چت بات در مکالمه.
ایمنی_طلا ClassLabel int64 برچسب ایمنی استاندارد طلایی ارائه شده توسط کارشناسان.
ایمنی_طلا_دلیل متن رشته دلیل(های) (در صورت ارائه) برچسب ایمنی طلا که توسط کارشناسان ارائه شده است.

تاس/990

  • توضیحات پیکربندی : مجموعه داده 990 شامل 990 مکالمه است که توسط یک گروه ارزیابی متنوع از 173 رتبه‌دهنده منحصربه‌فرد رتبه‌بندی شده‌اند. هر مکالمه با سه دسته سطح بالای ایمنی و یک سؤال کلی در مورد مکالمه رتبه بندی می شود. ارزیاب‌ها به‌گونه‌ای انتخاب شدند که تعداد رتبه‌دهندگان برای هر مکالمه بر اساس جنسیت (مرد، زن) و منطقه (ایالات متحده، هند) متعادل شود. هر ارزیاب فقط به نمونه ای از مکالمه امتیاز داد. هر مکالمه دارای 60-70 رتبه بندی منحصر به فرد است. تعداد کل ردیف های این مجموعه داده 72103 است.

  • حجم دانلود : 48.06 MiB

  • حجم مجموعه داده : 150.38 MiB

  • ذخیره خودکار ( مستندات ): فقط زمانی که shuffle_files=False (قطار)

  • تقسیم ها :

شکاف مثال ها
'train' 72,103
  • ساختار ویژگی :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
Q1_hole_conversation_evaluation ClassLabel int64 رتبه بندی در مورد قابل درک بودن یک مکالمه.
Q2_محتوای_مضر_به طور صریح_جنسی ClassLabel int64
Q2_محتوای_مضر_مشاوره_مالی ClassLabel int64
Q2_محتوای_مضر_آزار_به_مردم_یا_حیوانات ClassLabel int64
Q2_محتوای_مضر_سلامت_و_ادعای_ایمنی ClassLabel int64
Q2_harmful_content_how_tos_about_harmful_activities ClassLabel int64
Q2_محتوای_مضر_فحاشی_یا_بدحجابی ClassLabel int64
Q2_harmful_content_other ClassLabel int64
Q2_harmful_content_all ClassLabel int64
Q2_محتوای_مضر_اطلاعات_شخصی ClassLabel int64
Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods ClassLabel int64
Q2_harmful_content_promotes_or_condones_violence ClassLabel int64
Q2_Harmful_content_violent_or_gory ClassLabel int64
Q3_3_نژادی_مذهبی_یا_سایر_توهین_و_کلیشه_بر اساس_هر_یک_از_ویژگی_های_ذکر_شده_بالا_برانگیخته_یا_ترویج_نفرت_اند. ClassLabel int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious ClassLabel int64
Q3_ تعصب_برانگیختن_نفرت ClassLabel int64
Q3_سوگیری_توهین_درباره_جذابیت_عاطفی_عاشقانه_و_یا_جنسی ClassLabel int64
Q3_bias_other ClassLabel int64
Q3_تعصب_فیزیکی_یا_ذهنی_فرهنگی ClassLabel int64
Q3_bias_subhuman_comparisons ClassLabel int64
Q3_تعصب_برتری_یا_انقیاد_یک_گروه ClassLabel int64
Q3_unfair_bias_all ClassLabel int64
Q4_اطلاعات_نادرست_نظریه_توطئه ClassLabel int64
Q4_اطلاعات غلط_تضاد_اجماع_کارشناسان ClassLabel int64
Q4_اطلاعات_نادرست_نظریه_های_کاذب ClassLabel int64
Q4_اطلاعات غلط_دیگر ClassLabel int64
Q4_اطلاعات غلط_کلی ClassLabel int64
س4_اطلاعات غلط_سیاسی ClassLabel int64
Q_به طور کلی ClassLabel int64
متن نوشته متن رشته مکالمه قبل از پاسخ نهایی چت بات می چرخد.
درجه_آسیب ClassLabel int64 رتبه بندی دستی از شدت خطر ایمنی.
نوع_ضرر دنباله (ClassLabel) (هیچ یک،) int64 موضوع(های) آسیب مشروح با دست در گفتگو.
شناسه اسکالر int64 شناسه عددی برای هر ردیف، که همه رتبه‌بندی‌ها را توسط یک رتبه‌دهنده به یک مکالمه نشان می‌دهد.
item_id اسکالر int64 شناسه عددی برای هر مکالمه
فاز ClassLabel int64 یکی از سه دوره زمانی متمایز.
rater_age ClassLabel int64 گروه سنی ارزیاب.
rater_education ClassLabel int64 تحصیلات ارزیاب.
rater_gender ClassLabel int64 جنسیت ارزیاب.
rater_id اسکالر int64 شناسه عددی برای هر ارزیاب
رتبه_محلی ClassLabel int64 محل ارزیابی.
rater_race ClassLabel int64 نژاد/قومیت ارزیاب.
rater_raw_race متن رشته نژاد/قومیت خام ارزیابی‌کننده، قبل از ساده‌سازی به پنج دسته.
واکنش متن رشته پاسخ نهایی چت بات در مکالمه.