кубики

Описание :

Набор данных Diversational AI Evaluation for Safety ( DICES )

Подходы к машинному обучению часто обучаются и оцениваются с использованием наборов данных, которые требуют четкого разделения положительных и отрицательных примеров. Такой подход чрезмерно упрощает естественную субъективность, присущую многим задачам и элементам контента. Это также скрывает неотъемлемое разнообразие человеческих восприятий и мнений. Часто задачи, направленные на сохранение различий в содержании и разнообразии людей, являются весьма дорогостоящими и трудоемкими. Чтобы восполнить этот пробел и облегчить более глубокий анализ производительности моделей, мы предлагаем набор данных DICES — уникальный набор данных с разнообразными взглядами на безопасность разговоров, генерируемых ИИ. Мы фокусируемся на задаче оценки безопасности диалоговых систем искусственного интеллекта. Набор данных DICES содержит подробную демографическую информацию о каждом оценщике, чрезвычайно высокую степень репликации уникальных оценок за разговор, чтобы обеспечить статистическую значимость дальнейшего анализа, и кодирует голоса оценщиков как распределение по различным демографическим группам, чтобы обеспечить углубленное исследование различных стратегий агрегирования рейтингов.

Этот набор данных хорошо подходит для наблюдения и измерения отклонений, двусмысленности и разнообразия в контексте безопасности диалогового ИИ. Набор данных сопровождается документом, описывающим набор показателей, которые показывают, как разнообразие оценщиков влияет на восприятие безопасности оценщиками из разных географических регионов, этнических групп, возрастных групп и пола. Цель набора данных DICES — использовать его в качестве общего эталона для оценки безопасности диалоговых систем искусственного интеллекта.

ПРЕДУПРЕЖДЕНИЕ О СОДЕРЖАНИИ : этот набор данных содержит состязательные примеры разговоров, которые могут быть оскорбительными.

Домашняя страница : https://github.com/google-research-datasets/dices-dataset.
Исходный код : tfds.datasets.dices.Builder
Версии :
- 1.0.0 (по умолчанию): первоначальный выпуск.
Контролируемые ключи (см. документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

кубики/350 (конфигурация по умолчанию)

Описание конфигурации : Набор данных 350 содержит 350 разговоров, оцененных разнообразным пулом оценщиков, состоящим из 123 уникальных оценщиков. Каждый разговор оценивается по пяти категориям безопасности высшего уровня и одному вопросу общего понимания разговора. Набранные оценщики были сбалансированы по полу (мужчина или женщина), расовой/этнической принадлежности (белые, черные, латиноамериканцы, азиаты, многорасовые), и каждый оценщик оценивал все элементы. Каждый оценщик оценивал все разговоры. Каждый разговор имеет 123 уникальные оценки. Общее количество строк в этом наборе данных — 43050.
Размер загрузки : 29.70 MiB
Размер набора данных : 74.43 MiB
Автокэширование ( документация ): Да
Расколы :

Расколоть	Примеры
`'train'`	43 050

Структура функции :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип	Описание
	ВозможностиDict
Q1_whole_conversation_evaluation	Класслейбл		int64	Оценка понятности разговора.
Q2_harmful_content_dangerous_content	Класслейбл		int64
Q2_harmful_content_derogation_of_boat	Класслейбл		int64
Q2_harmful_content_insensitivity	Класслейбл		int64
Q2_harmful_content_medical_legal_financial_or_relationship_advice	Класслейбл		int64
Q2_harmful_content_obscene_and_profane	Класслейбл		int64
Q2_harmful_content_other	Класслейбл		int64
Q2_harmful_content_overall	Класслейбл		int64
Q2_harmful_content_personal_information	Класслейбл		int64
Q2_harmful_content_regulated_goods	Класслейбл		int64
Q2_harmful_content_сексуально_наводящий_контент	Класслейбл		int64
Q3_bias_other	Класслейбл		int64
Q3_bias_overall	Класслейбл		int64
Q3_bias_targeting_beliefs	Класслейбл		int64
Q3_bias_targeting_gender_сексуальная_ориентация	Класслейбл		int64
Q3_bias_targeting_inherited_attributes	Класслейбл		int64
Q3_bias_targeting_status	Класслейбл		int64
Q4_дезинформация	Класслейбл		int64
Q5_politic_affiliation	Класслейбл		int64
Q6_policy_guidelines_making_endorsement	Класслейбл		int64
Q6_policy_guidelines_other	Класслейбл		int64
Q6_policy_guidelines_overall	Класслейбл		int64
Q6_policy_guidelines_polarizing_topics	Класслейбл		int64
Q_общий	Класслейбл		int64
ответ_время_мс	Скаляр		int64	Количество времени, затраченное каждым оценщиком на каждый вопрос с аннотациями по безопасности.
ответ_временная метка	Скаляр		int64	Время, когда каждый разговор оценивался каждым оценщиком.
контекст	Текст		нить	Разговор переходит к окончательному ответу чат-бота.
степень_вреда	Класслейбл		int64	Аннотированный вручную рейтинг серьезности риска для безопасности.
тип_вреда	Последовательность (метка класса)	(Никто,)	int64	От руки аннотированы вредные темы разговора.
идентификатор	Скаляр		int64	Числовой идентификатор для каждой строки, представляющий все оценки одного оценщика для одного разговора.
item_id	Скаляр		int64	Числовой идентификатор для каждого разговора.
фаза	Класслейбл		int64	Один из трех различных периодов времени.
рейтинг_возраста	Класслейбл		int64	Возрастная группа оценщика.
rater_education	Класслейбл		int64	Образование оценщика.
rater_gender	Класслейбл		int64	Пол оценщика.
рейтинг_ид	Скаляр		int64	Числовой идентификатор для каждого оценщика.
rater_race	Класслейбл		int64	Раса/этническая принадлежность оценщика.
rater_raw_race	Текст		нить	Самооценка расовой/этнической принадлежности оценщика до упрощения до пяти категорий.
ответ	Текст		нить	Последний ответ чат-бота в разговоре.
безопасность_золото	Класслейбл		int64	Знак безопасности золотого стандарта, предоставленный экспертами.
Safety_gold_reason	Текст		нить	Причина(ы) (если дана) для золотого знака безопасности, предоставленная экспертами.

Примеры ( tfds.as_dataframe ):

кубики/990

Описание конфигурации : Набор данных 990 содержит 990 разговоров, оцененных разнообразным пулом оценщиков, состоящим из 173 уникальных оценщиков. Каждый разговор оценивается по трем категориям безопасности верхнего уровня и одному общему вопросу на понимание разговора. Оценщиков набирали таким образом, чтобы количество оценщиков для каждого разговора было сбалансировано по полу (мужчина, женщина) и региону (США, Индия). Каждый оценщик оценивал только отрывок разговора. Каждый разговор имеет 60-70 уникальных оценок. Общее количество строк в этом наборе данных — 72103.
Размер загрузки : 48.06 MiB
Размер набора данных : 150.38 MiB
Автоматическое кэширование ( документация ): только если shuffle_files=False (поезд)
Расколы :

Расколоть	Примеры
`'train'`	72 103

Структура функции :

FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})

Функциональная документация :

Особенность	Сорт	Форма	Дтип	Описание
	ВозможностиDict
Q1_whole_conversation_evaluation	Класслейбл		int64	Оценка понятности разговора.
Q2_harmful_content_explicitly_сексуальный	Класслейбл		int64
Q2_harmful_content_financial_advice	Класслейбл		int64
Q2_harmful_content_вред_для_людей_или_животных	Класслейбл		int64
Q2_harmful_content_health_and_safety_claims	Класслейбл		int64
Q2_harmful_content_how_tos_about_harmful_activities	Класслейбл		int64
Q2_harmful_content_obscenities_or_profanities	Класслейбл		int64
Q2_harmful_content_other	Класслейбл		int64
Q2_harmful_content_overall	Класслейбл		int64
Q2_harmful_content_personal_information	Класслейбл		int64
Q2_harmful_content_рекламирует_или_одобряет_использование_вредных_регулируемых_товаров	Класслейбл		int64
Q2_harmful_content_пропагандирует_или_одобряет_насилие	Класслейбл		int64
Q2_harmful_content_violent_or_gory	Класслейбл		int64
Q3_3_Расовые_религиозные_или_другие_оскорбления_и_стереотипы_которые_разжигают_или_пропагандируют_ненависть_основанную_на_любых_из_атрибутов_отмеченных_выше	Класслейбл		int64
Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious	Класслейбл		int64
Q3_bias_incites_hatred	Класслейбл		int64
Q3_bias_insults_about_эмоциональное_романтическое_и_или_сексуальное_влечение	Класслейбл		int64
Q3_bias_other	Класслейбл		int64
Q3_предвзятость_физически_или_умственно_неполноценность	Класслейбл		int64
Q3_bias_subhuman_сравнения	Класслейбл		int64
Q3_предвзятость_превосходства_или_подчинения_группы	Класслейбл		int64
Q3_несправедливое_предубеждение_в целом	Класслейбл		int64
Q4_дезинформация_теории заговора	Класслейбл		int64
Q4_misinformation_contradicts_expert_consensus	Класслейбл		int64
Q4_дезинформация_ложные_теории	Класслейбл		int64
Q4_дезинформация_другое	Класслейбл		int64
Q4_дезинформация_всего	Класслейбл		int64
Q4_дезинформация_политическая	Класслейбл		int64
Q_общий	Класслейбл		int64
контекст	Текст		нить	Разговор переходит к окончательному ответу чат-бота.
степень_вреда	Класслейбл		int64	Аннотированный вручную рейтинг серьезности риска для безопасности.
тип_вреда	Последовательность (метка класса)	(Никто,)	int64	От руки аннотированы вредные темы разговора.
идентификатор	Скаляр		int64	Числовой идентификатор для каждой строки, представляющий все оценки одного оценщика для одного разговора.
item_id	Скаляр		int64	Числовой идентификатор для каждого разговора.
фаза	Класслейбл		int64	Один из трех различных периодов времени.
рейтинг_возраста	Класслейбл		int64	Возрастная группа оценщика.
rater_education	Класслейбл		int64	Образование оценщика.
rater_gender	Класслейбл		int64	Пол оценщика.
рейтинг_ид	Скаляр		int64	Числовой идентификатор для каждого оценщика.
rater_locale	Класслейбл		int64	Язык оценщика.
rater_race	Класслейбл		int64	Раса/этническая принадлежность оценщика.
rater_raw_race	Текст		нить	Самооценка расовой/этнической принадлежности оценщика до упрощения до пяти категорий.
ответ	Текст		нить	Последний ответ чат-бота в разговоре.

Примеры ( tfds.as_dataframe ):