קוביות

תיאור :

מערך הנתונים Diversity in Conversational AI Evaluation for Safety ( DICES ).

גישות למידת מכונה מאומנות ומוערכות לעתים קרובות עם מערכי נתונים הדורשים הפרדה ברורה בין דוגמאות חיוביות ושליליות. גישה זו מפשטת יתר על המידה את הסובייקטיביות הטבעית הקיימת במשימות ובפריטי תוכן רבים. הוא גם מטשטש את הגיוון המובנה בתפיסות ובדעות האנושיות. לעתים קרובות משימות המנסות לשמר את השונות בתוכן ובמגוון בבני אדם הן די יקרות ומייגעות. כדי להשלים את הפער הזה ולאפשר ניתוחי ביצועים מעמיקים יותר של מודלים, אנו מציעים את מערך הנתונים של DICES - מערך נתונים ייחודי עם נקודות מבט מגוונות על הבטיחות של שיחות שנוצרו על ידי AI. אנו מתמקדים במשימה של הערכת בטיחות של מערכות בינה מלאכותית שיחה. מערך הנתונים של DICES מכיל מידע דמוגרפי מפורט על כל מדרג, שכפול גבוה במיוחד של דירוגים ייחודיים לשיחה כדי להבטיח מובהקות סטטיסטית של ניתוחים נוספים ומקודד הצבעות המדרגים כהפצות על פני דמוגרפיה שונות כדי לאפשר חקירה מעמיקה של אסטרטגיות צבירת דירוג שונות.

מערך נתונים זה מתאים היטב לצפייה ולמדוד שונות, עמימות וגיוון בהקשר של בטיחות של AI שיחה. מערך הנתונים מלווה במאמר המתאר קבוצה של מדדים המראים כיצד מגוון המדרגים משפיע על תפיסת הבטיחות של המדרגים מאזורים גיאוגרפיים שונים, קבוצות אתניות, קבוצות גיל ומגדרים. המטרה של מערך הנתונים של DICES היא לשמש כמדד משותף להערכת בטיחות של מערכות בינה מלאכותית לשיחה.

אזהרת תוכן : מערך נתונים זה מכיל דוגמאות יריבות לשיחות שעלולות להיות פוגעניות.

דף הבית : https://github.com/google-research-datasets/dices-dataset
קוד מקור : tfds.datasets.dices.Builder
גרסאות :
- 1.0.0 (ברירת מחדל): שחרור ראשוני.
מפתחות בפיקוח (ראה as_supervised doc ): None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

קוביות/350 (תצורת ברירת מחדל)

תיאור תצורה : ערכת נתונים 350 מכילה 350 שיחות שדורגו על ידי מאגר מדרגים מגוון של 123 מדרגים ייחודיים. כל שיחה מדורגת עם חמש קטגוריות בטיחות ברמה העליונה ושאלת הבנה כוללת אחת של השיחה. המדרגים שגויסו היו מאוזנים לפי מגדר (גבר או אישה), גזע/אתניות (לבן, שחור, לטינית, אסיה, רב גזעי) וכל מדורג דירג את כל הפריטים. כל מדרג דירג את כל השיחות. לכל שיחה יש 123 דירוגים ייחודיים. המספר הכולל של שורות במערך נתונים זה הוא 43050.
גודל הורדה : 29.70 MiB
גודל מערך נתונים : 74.43 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	43,050

מבנה תכונה :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	צוּרָה	Dtype	תיאור
	FeaturesDict
שאלה 1_הערכת_שיחה_שלמה	ClassLabel		int64	דירוג לגבי ההבנה של שיחה.
שאלה 2_תוכן_מזיק_תוכן_מסוכן	ClassLabel		int64
שאלה 2_חריגה_של_סירה_תוכן מזיק	ClassLabel		int64
Q2_harmful_content_insensitive	ClassLabel		int64
Q2_harmful_content_medical_legal_financial_or_relationship advice	ClassLabel		int64
שאלה 2_תוכן_מזיק_מגונה_ומחולל	ClassLabel		int64
Q2_harmful_content_other	ClassLabel		int64
Q2_harmful_content_general	ClassLabel		int64
Q2_harmful_content_personal_information	ClassLabel		int64
שאלה 2_מוצרים_מזיקים_בפיקוח	ClassLabel		int64
שאלה 2_תוכן_מזיק_תוכן_מיני_סוגסטי	ClassLabel		int64
Q3_bias_other	ClassLabel		int64
Q3_bias_general	ClassLabel		int64
Q3_bias_targeting_beliefs	ClassLabel		int64
Q3_bias_targeting_gender_sexualorientation	ClassLabel		int64
Q3_bias_targeting_herited_attributes	ClassLabel		int64
Q3_bias_targeting_status	ClassLabel		int64
Q4_מידע שגוי	ClassLabel		int64
שאלה 5_שיוך_פוליטי	ClassLabel		int64
Q6_policy_guidelines_endorsement	ClassLabel		int64
Q6_policy_guidelines_other	ClassLabel		int64
שאלה 6_מדיניות_הנחיות_כולל	ClassLabel		int64
Q6_policy_guidelines_polarizing_topics	ClassLabel		int64
Q_בכלל	ClassLabel		int64
time_time_ms	סקלר		int64	משך הזמן שהשקיע כל מדורג בכל שאלה של הערת בטיחות.
answer_timestamp	סקלר		int64	הזמן שבו כל שיחה דורגה על ידי כל מדרג.
הֶקשֵׁר	טֶקסט		חוּט	השיחה הופכת לפני התגובה הסופית של הצ'אטבוט.
דרגת_פגיעה	ClassLabel		int64	דירוג ידנית של חומרת הסיכון הבטיחותי.
Harm_type	Sequence (ClassLabel)	(אף אחד,)	int64	נושאי שיחה עם הערות ידניות.
תְעוּדַת זֶהוּת	סקלר		int64	מזהה מספרי עבור כל שורה, המייצג את כל הדירוגים על ידי מדרג יחיד לשיחה בודדת.
מספר זיהוי של הפריט	סקלר		int64	מזהה מספרי לכל שיחה.
שלב	ClassLabel		int64	אחת משלוש תקופות זמן שונות.
מדרג_גיל	ClassLabel		int64	קבוצת הגיל של המדרג.
מדרג_חינוך	ClassLabel		int64	השכלתו של המדרג.
rater_gender	ClassLabel		int64	מינו של המדרג.
rater_id	סקלר		int64	מזהה מספרי עבור כל מדרג.
rater_race	ClassLabel		int64	הגזע/אתניות של המדרג.
rater_raw_race	טֶקסט		חוּט	הגזע הגולמי/אתני המדווח על עצמו של המדרג, לפני הפישוט לחמש קטגוריות.
תְגוּבָה	טֶקסט		חוּט	תגובת הצ'אטבוט האחרונה בשיחה.
בטיחות_זהב	ClassLabel		int64	תווית הבטיחות בתקן הזהב מסופקת על ידי מומחים.
סיבת_זהב_בטיחות	טֶקסט		חוּט	הסיבה (אם ניתנה) לתווית הבטיחות המוזהבת שסופקה על ידי מומחים.

דוגמאות ( tfds.as_dataframe ):

קוביות/990

תיאור תצורה : ערכת נתונים 990 מכילה 990 שיחות שדורגו על ידי מאגר מדרגים מגוון של 173 מדרגים ייחודיים. כל שיחה מדורגת עם שלוש קטגוריות בטיחות ברמה העליונה ושאלת הבנת שיחה כוללת אחת. המדרגים גויסו כך שמספר המדרגים לכל שיחה היה מאוזן לפי מגדר (גבר, אישה) ומקום (ארה"ב, הודו). כל מדרג דירג רק מדגם מהשיחה. לכל שיחה יש 60-70 דירוגים ייחודיים. המספר הכולל של שורות במערך נתונים זה הוא 72103.
גודל הורדה : 48.06 MiB
גודל מערך נתונים : 150.38 MiB
שמור אוטומטי במטמון ( תיעוד ): רק כאשר shuffle_files=False (רכבת)
פיצולים :

לְפַצֵל	דוגמאות
`'train'`	72,103

מבנה תכונה :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

תיעוד תכונה :

תכונה	מעמד	צוּרָה	Dtype	תיאור
	FeaturesDict
שאלה 1_הערכת_שיחה_שלמה	ClassLabel		int64	דירוג לגבי ההבנה של שיחה.
Q2_harmful_content_explainly_sexual	ClassLabel		int64
שאלה 2_עצה_פיננסית_מזיקה	ClassLabel		int64
שאלה2_תוכן_מזיק_פגיעה_לאנשים_או_בעלי חיים	ClassLabel		int64
שאלה 2_תביעות_בריאות_ובטיחות_מזיקות	ClassLabel		int64
Q2_harmful_content_how_tos_about_harmful_activities	ClassLabel		int64
שאלה 2_תוכן_מזיק_גסויות_או_לשון הרע	ClassLabel		int64
Q2_harmful_content_other	ClassLabel		int64
Q2_harmful_content_general	ClassLabel		int64
Q2_harmful_content_personal_information	ClassLabel		int64
שאלה 2_תוכן_מזיק_מקדם_או_מתנגד_שימוש_במוצרים_בפיקוח_מזיקים	ClassLabel		int64
שאלה 2_תוכן_מזיק_מקדם_או_מתנשא לאלימות	ClassLabel		int64
Q2_harmful_content_violent_or_gory	ClassLabel		int64
שאלה 3_3_הכפשות_דתיות_על_גזעיות_או_אחרות_וסטריאוטיפים_המסיתים_או_מקדמים_שנאה על סמך_כל אחת מהתכונות שצוינו לעיל	ClassLabel		int64
Q3_bias_cing_individuals_or_groups_evil_corrupt or malicious	ClassLabel		int64
שאלה 3_הטיה_מסיתה_שנאה	ClassLabel		int64
שאלה 3_עלבונות_הטיות_על_משיכה_רומנטית_ו_או_מינית_רגשית	ClassLabel		int64
Q3_bias_other	ClassLabel		int64
Q3_bias_פזית_או_מנטלית_נחיתות	ClassLabel		int64
Q3_bias_subhuman_comparisons	ClassLabel		int64
שאלה 3_הטיה_מעלות_או_הכנעה_של_קבוצה	ClassLabel		int64
Q3_unfair_bias_בכלל	ClassLabel		int64
שאלה 4_תיאוריות_קונספירציה_שגויות	ClassLabel		int64
Q4_misinformation_contradicts_expert_consensus	ClassLabel		int64
Q4_misinformation_false_theories	ClassLabel		int64
Q4_misinformation_other	ClassLabel		int64
Q4_misinformation_overall	ClassLabel		int64
Q4_misinformation_political	ClassLabel		int64
Q_בכלל	ClassLabel		int64
הֶקשֵׁר	טֶקסט		חוּט	השיחה הופכת לפני התגובה הסופית של הצ'אטבוט.
דרגת_פגיעה	ClassLabel		int64	דירוג ידנית של חומרת הסיכון הבטיחותי.
Harm_type	Sequence (ClassLabel)	(אף אחד,)	int64	נושאי שיחה עם הערות ידניות.
תְעוּדַת זֶהוּת	סקלר		int64	מזהה מספרי עבור כל שורה, המייצג את כל הדירוגים על ידי מדרג יחיד לשיחה בודדת.
מספר זיהוי של הפריט	סקלר		int64	מזהה מספרי לכל שיחה.
שלב	ClassLabel		int64	אחת משלוש תקופות זמן שונות.
מדרג_גיל	ClassLabel		int64	קבוצת הגיל של המדרג.
מדרג_חינוך	ClassLabel		int64	השכלתו של המדרג.
rater_gender	ClassLabel		int64	מינו של המדרג.
rater_id	סקלר		int64	מזהה מספרי עבור כל מדרג.
rater_locale	ClassLabel		int64	המקום של המדרג.
rater_race	ClassLabel		int64	הגזע/אתניות של המדרג.
rater_raw_race	טֶקסט		חוּט	הגזע הגולמי/אתני המדווח על עצמו של המדרג, לפני הפישוט לחמש קטגוריות.
תְגוּבָה	טֶקסט		חוּט	תגובת הצ'אטבוט האחרונה בשיחה.

דוגמאות ( tfds.as_dataframe ):