кубики

  • Описание :

Набор данных Diversational AI Evaluation for Safety ( DICES )

Подходы к машинному обучению часто обучаются и оцениваются с использованием наборов данных, которые требуют четкого разделения положительных и отрицательных примеров. Такой подход чрезмерно упрощает естественную субъективность, присущую многим задачам и элементам контента. Это также скрывает неотъемлемое разнообразие человеческих восприятий и мнений. Часто задачи, направленные на сохранение различий в содержании и разнообразии людей, являются весьма дорогостоящими и трудоемкими. Чтобы восполнить этот пробел и облегчить более глубокий анализ производительности моделей, мы предлагаем набор данных DICES — уникальный набор данных с разнообразными взглядами на безопасность разговоров, генерируемых ИИ. Мы фокусируемся на задаче оценки безопасности диалоговых систем искусственного интеллекта. Набор данных DICES содержит подробную демографическую информацию о каждом оценщике, чрезвычайно высокую степень репликации уникальных рейтингов за разговор, чтобы обеспечить статистическую значимость дальнейшего анализа, и кодирует голоса оценщиков как распределение по различным демографическим группам, чтобы обеспечить углубленное исследование различных стратегий агрегирования рейтингов.

Этот набор данных хорошо подходит для наблюдения и измерения отклонений, двусмысленности и разнообразия в контексте безопасности диалогового ИИ. Набор данных сопровождается документом, описывающим набор показателей, которые показывают, как разнообразие оценщиков влияет на восприятие безопасности оценщиками из разных географических регионов, этнических групп, возрастных групп и пола. Цель набора данных DICES — использовать его в качестве общего эталона для оценки безопасности диалоговых систем искусственного интеллекта.

ПРЕДУПРЕЖДЕНИЕ О СОДЕРЖАНИИ : этот набор данных содержит состязательные примеры разговоров, которые могут быть оскорбительными.

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

кубики/350 (конфигурация по умолчанию)

  • Описание конфигурации : Набор данных 350 содержит 350 разговоров, оцененных разнообразным пулом оценщиков, состоящим из 123 уникальных оценщиков. Каждый разговор оценивается по пяти категориям безопасности высшего уровня и одному вопросу общего понимания разговора. Набранные оценщики были сбалансированы по полу (мужчина или женщина), расовой/этнической принадлежности (белые, черные, латиноамериканцы, азиаты, многорасовые), и каждый оценщик оценивал все элементы. Каждый оценщик оценивал все разговоры. Каждый разговор имеет 123 уникальные оценки. Общее количество строк в этом наборе данных — 43050.

  • Размер загрузки : 29.70 MiB

  • Размер набора данных : 74.43 MiB

  • Автокэширование ( документация ): Да

  • Расколы :

Расколоть Примеры
'train' 43 050
  • Структура функции :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
Q1_whole_conversation_evaluation Класслейбл int64 Оценка понятности разговора.
Q2_harmful_content_dangerous_content Класслейбл int64
Q2_harmful_content_derogation_of_boat Класслейбл int64
Q2_harmful_content_insensitivity Класслейбл int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice Класслейбл int64
Q2_harmful_content_obscene_and_profane Класслейбл int64
Q2_harmful_content_other Класслейбл int64
Q2_harmful_content_overall Класслейбл int64
Q2_harmful_content_personal_information Класслейбл int64
Q2_harmful_content_regulated_goods Класслейбл int64
Q2_harmful_content_сексуально_наводящий_контент Класслейбл int64
Q3_bias_other Класслейбл int64
Q3_bias_overall Класслейбл int64
Q3_bias_targeting_beliefs Класслейбл int64
Q3_bias_targeting_gender_сексуальная_ориентация Класслейбл int64
Q3_bias_targeting_inherited_attributes Класслейбл int64
Q3_bias_targeting_status Класслейбл int64
Q4_дезинформация Класслейбл int64
Q5_politic_affiliation Класслейбл int64
Q6_policy_guidelines_making_endorsement Класслейбл int64
Q6_policy_guidelines_other Класслейбл int64
Q6_policy_guidelines_overall Класслейбл int64
Q6_policy_guidelines_polarizing_topics Класслейбл int64
Q_общий Класслейбл int64
ответ_время_мс Скаляр int64 Количество времени, затраченное каждым оценщиком на каждый вопрос с аннотациями по безопасности.
ответ_временная метка Скаляр int64 Время, когда каждый разговор оценивался каждым оценщиком.
контекст Текст нить Разговор переходит к окончательному ответу чат-бота.
степень_вреда Класслейбл int64 Аннотированный вручную рейтинг серьезности риска для безопасности.
тип_вреда Последовательность (метка класса) (Никто,) int64 От руки аннотированы вредные темы разговора.
идентификатор Скаляр int64 Числовой идентификатор для каждой строки, представляющий все оценки одного эксперта для одного разговора.
item_id Скаляр int64 Числовой идентификатор для каждого разговора.
фаза Класслейбл int64 Один из трех различных периодов времени.
рейтинг_возраста Класслейбл int64 Возрастная группа оценщика.
rater_education Класслейбл int64 Образование оценщика.
rater_gender Класслейбл int64 Пол оценщика.
рейтер_ид Скаляр int64 Числовой идентификатор для каждого оценщика.
rater_race Класслейбл int64 Раса/этническая принадлежность оценщика.
rater_raw_race Текст нить Самооценка расовой/этнической принадлежности оценщика до упрощения до пяти категорий.
ответ Текст нить Последний ответ чат-бота в разговоре.
безопасность_золото Класслейбл int64 Знак безопасности золотого стандарта, предоставленный экспертами.
Safety_gold_reason Текст нить Причина(ы) (если дана) для золотого знака безопасности, предоставленная экспертами.

кубики/990

  • Описание конфигурации : Набор данных 990 содержит 990 разговоров, оцененных разнообразным пулом оценщиков, состоящим из 173 уникальных оценщиков. Каждый разговор оценивается по трем категориям безопасности верхнего уровня и одному общему вопросу на понимание разговора. Оценщиков набирали таким образом, чтобы количество оценщиков для каждого разговора было сбалансировано по полу (мужчина, женщина) и региону (США, Индия). Каждый оценщик оценивал только отрывок разговора. Каждый разговор имеет 60-70 уникальных оценок. Общее количество строк в этом наборе данных — 72103.

  • Размер загрузки : 48.06 MiB

  • Размер набора данных : 150.38 MiB

  • Автоматическое кэширование ( документация ): только если shuffle_files=False (поезд)

  • Расколы :

Расколоть Примеры
'train' 72 103
  • Структура функции :
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • Функциональная документация :
Особенность Сорт Форма Дтип Описание
ВозможностиDict
Q1_whole_conversation_evaluation Класслейбл int64 Оценка понятности разговора.
Q2_harmful_content_explicitly_сексуальный Класслейбл int64
Q2_harmful_content_financial_advice Класслейбл int64
Q2_harmful_content_вред_для_людей_или_животных Класслейбл int64
Q2_harmful_content_health_and_safety_claims Класслейбл int64
Q2_harmful_content_how_tos_about_harmful_activities Класслейбл int64
Q2_harmful_content_obscenities_or_profanities Класслейбл int64
Q2_harmful_content_other Класслейбл int64
Q2_harmful_content_overall Класслейбл int64
Q2_harmful_content_personal_information Класслейбл int64
Q2_harmful_content_пропагандирует_или_одобряет_использование_вредных_регулируемых_товаров Класслейбл int64
Q2_harmful_content_пропагандирует_или_одобряет_насилие Класслейбл int64
Q2_harmful_content_violent_or_gory Класслейбл int64
Q3_3_Расовые_религиозные_или_другие_оскорбления_и_стереотипы_которые_разжигают_или_пропагандируют_ненависть_основанную_на_любом_из_атрибутов_отмеченных_выше Класслейбл int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious Класслейбл int64
Q3_bias_incites_hatred Класслейбл int64
Q3_bias_insults_about_эмоциональное_романтическое_и_или_сексуальное_влечение Класслейбл int64
Q3_bias_other Класслейбл int64
Q3_предвзятость_физически_или_ментально_неполноценный Класслейбл int64
Q3_bias_subhuman_сравнения Класслейбл int64
Q3_предвзятость_превосходства_или_подчинения_группы_ Класслейбл int64
Q3_несправедливое_предубеждение_в целом Класслейбл int64
Q4_дезинформация_теории заговора Класслейбл int64
Q4_misinformation_contradicts_expert_consensus Класслейбл int64
Q4_дезинформация_ложные_теории Класслейбл int64
Q4_дезинформация_другое Класслейбл int64
Q4_дезинформация_всего Класслейбл int64
Q4_дезинформация_политическая Класслейбл int64
Q_общий Класслейбл int64
контекст Текст нить Разговор переходит к окончательному ответу чат-бота.
степень_вреда Класслейбл int64 Аннотированный вручную рейтинг серьезности риска для безопасности.
тип_вреда Последовательность (метка класса) (Никто,) int64 От руки аннотированы вредные темы разговора.
идентификатор Скаляр int64 Числовой идентификатор для каждой строки, представляющий все оценки одного эксперта для одного разговора.
item_id Скаляр int64 Числовой идентификатор для каждого разговора.
фаза Класслейбл int64 Один из трех различных периодов времени.
рейтинг_возраста Класслейбл int64 Возрастная группа оценщика.
rater_education Класслейбл int64 Образование оценщика.
rater_gender Класслейбл int64 Пол оценщика.
рейтер_ид Скаляр int64 Числовой идентификатор для каждого оценщика.
rater_locale Класслейбл int64 Язык оценщика.
rater_race Класслейбл int64 Раса/этническая принадлежность оценщика.
rater_raw_race Текст нить Самооценка расовой/этнической принадлежности оценщика до упрощения до пяти категорий.
ответ Текст нить Последний ответ чат-бота в разговоре.