サイコロ

  • 説明

安全性のための会話型 AI 評価 ( DICES ) データセットの多様性

機械学習アプローチは、多くの場合、肯定的な例と否定的な例を明確に区別する必要があるデータセットを使用してトレーニングおよび評価されます。このアプローチは、多くのタスクやコンテンツ項目に存在する自然な主観を過度に単純化します。また、人間の認識や意見に本来備わっている多様性が見えにくくなります。人間の内容の差異や多様性を維持しようとする作業は、多くの場合、非常に費用と労力がかかります。このギャップを埋め、より詳細なモデルのパフォーマンス分析を促進するために、AI が生成した会話の安全性について多様な視点を備えた独自のデータセットである DICES データセットを提案します。私たちは対話型AIシステムの安全性評価に重点を置いています。 DICES データセットには、各評価者に関する詳細な人口統計情報、さらなる分析の統計的有意性を確保するための会話ごとの固有の評価の非常に高度な複製が含まれており、評価者の投票を異なる人口統計にわたる分布としてエンコードして、さまざまな評価集計戦略の詳細な調査を可能にします。

このデータセットは、会話型 AI の安全性の観点から分散、曖昧さ、多様性を観察および測定するのに適しています。このデータセットには、評価者の多様性が、異なる地理的地域、民族グループ、年齢層、性別の評価者の安全認識にどのような影響を与えるかを示す一連の指標を説明した論文が付属しています。 DICES データセットの目標は、会話型 AI システムの安全性評価のための共有ベンチマークとして使用されることです。

コンテンツに関する警告: このデータセットには、攻撃的な可能性のある敵対的な会話の例が含まれています。

@article{aroyo2024dices,
  title={ {DICES} dataset: Diversity in conversational {AI} evaluation for safety},
  author={Aroyo, Lora and Taylor, Alex and Diaz, Mark and Homan, Christopher and Parrish, Alicia and Serapio-Garc{\'\i}a, Gregory and Prabhakaran, Vinodkumar and Wang, Ding},
  journal={Advances in Neural Information Processing Systems},
  volume={36},
  year={2024}
}

サイコロ/350 (デフォルト設定)

  • 構成の説明: データセット 350 には、123 人の固有の評価者からなる多様な評価者プールによって評価された 350 の会話が含まれています。各会話は、5 つの安全性トップレベル カテゴリと会話の全体的な理解に関する 1 つの質問で評価されます。評価者は性別 (男性または女性)、人種/民族 (白人、黒人、ラテン人、アジア人、多民族) によってバランスよく採用され、各評価者はすべての項目を評価しました。各評価者はすべての会話を評価しました。各会話には 123 の固有の評価があります。このデータセットの合計行数は 43050 です。

  • ダウンロードサイズ: 29.70 MiB

  • データセットのサイズ: 74.43 MiB

  • 自動キャッシュ(ドキュメント): はい

  • 分割:

スプリット
'train' 43,050
  • 機能の構造:
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_dangerous_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_derogation_of_boat': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_insensitive': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_medical_legal_financial_or_relationship_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscene_and_profane': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_sexually_suggestive_content': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_beliefs': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_gender_sexual_orientation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_inherited_attributes': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_targeting_status': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q5_political_affiliation': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_making_endorsement': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q6_policy_guidelines_polarizing_topics': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'answer_time_ms': Scalar(shape=(), dtype=int64),
    'answer_timestamp': Scalar(shape=(), dtype=int64),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
    'safety_gold': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'safety_gold_reason': Text(shape=(), dtype=string),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
Q1_全体の会話_評価クラスラベルint64会話のわかりやすさを評価します。
Q2_有害な内容_危険な内容クラスラベルint64
Q2_ボートの有害な内容の違反行為クラスラベルint64
Q2_有害なコンテンツ_非感受性クラスラベルint64
Q2_有害な内容_医療_法的_金融_または_関係_アドバイスクラスラベルint64
Q2_有害な内容_猥褻性と冒涜性クラスラベルint64
Q2_有害な内容_その他クラスラベルint64
Q2_有害なコンテンツ_全体クラスラベルint64
Q2_有害な内容の個人情報クラスラベルint64
Q2_有害物質規制品クラスラベルint64
Q2_有害なコンテンツ_性的示唆を与えるコンテンツクラスラベルint64
Q3_バイアス_その他クラスラベルint64
Q3_バイアス_全体クラスラベルint64
Q3_バイアス_ターゲティング_信念クラスラベルint64
Q3_バイアス_ターゲティング_ジェンダー_性的指向クラスラベルint64
Q3_バイアス_ターゲティング_継承_属性クラスラベルint64
Q3_バイアス_ターゲティング_ステータスクラスラベルint64
Q4_誤った情報クラスラベルint64
Q5_政治的所属クラスラベルint64
Q6_ポリシー_ガイドライン_作成_承認クラスラベルint64
Q6_ポリシー_ガイドライン_その他クラスラベルint64
Q6_ポリシー_ガイドライン_全体クラスラベルint64
Q6_ポリシー_ガイドライン_分極化_トピックスクラスラベルint64
Q_全体クラスラベルint64
Answer_time_msスカラーint64各評価者が安全性に関する注釈の各質問に費やした時間。
回答タイムスタンプスカラーint64各会話が各評価者によって評価された時間。
コンテクスト文章会話は、チャットボットの最終応答の前に変わります。
害の程度クラスラベルint64安全リスクの重大度の手書きの注釈付き評価。
害の種類シーケンス(クラスラベル) (なし、) int64会話の有害トピックに手書きで注釈を付けたもの。
IDスカラーint64各行の数値識別子。単一の会話に対する単一の評価者によるすべての評価を表します。
アイテムIDスカラーint64各会話の数値識別子。
段階クラスラベルint64 3 つの異なる期間のうちの 1 つ。
評価者_年齢クラスラベルint64評価者の年齢層。
評価者_教育クラスラベルint64評価者の教育。
評価者の性別クラスラベルint64評価者の性別。
評価者IDスカラーint64各評価者の数値識別子。
評価者_レースクラスラベルint64評価者の人種/民族。
評価者_生_レース文章5 つのカテゴリに単純化する前の、評価者の自己申告の生の人種/民族。
応答文章会話における最後のチャットボットの応答。
安全性_ゴールドクラスラベルint64専門家によって提供されるゴールドスタンダードの安全ラベル。
safety_gold_reason文章専門家によって提供されたゴールド安全ラベルの理由(指定されている場合)。

サイコロ/990

  • 構成の説明: データセット 990 には、173 人の固有の評価者からなる多様な評価者プールによって評価された 990 件の会話が含まれています。各会話は、3 つの安全性トップレベル カテゴリと 1 つの全体的な会話理解の質問で評価されます。評価者は、各会話の評価者の数が性別 (男性、女性) と地域 (米国、インド) によってバランスがとれるように採用されました。各評価者は会話のサンプルのみを評価しました。各会話には 60 ~ 70 の固有の評価があります。このデータセットの行の合計数は 72103 です。

  • ダウンロードサイズ: 48.06 MiB

  • データセットのサイズ: 150.38 MiB

  • 自動キャッシュ(ドキュメント): shuffle_files=False (トレイン) の場合のみ

  • 分割:

スプリット
'train' 72,103
  • 機能の構造:
FeaturesDict({
    'Q1_whole_conversation_evaluation': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'Q2_harmful_content_explicitly_sexual': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_financial_advice': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_harm_to_people_or_animals': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_health_and_safety_claims': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_how_tos_about_harmful_activities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_obscenities_or_profanities': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_personal_information': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_use_of_harmful_regulated_goods': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_promotes_or_condones_violence': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q2_harmful_content_violent_or_gory': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_3_Racial_religious_or_other_slurs_and_stereotypes_that_incites_or_promote_hatred_based_on_any_of_the_attributes_noted_above': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_calling_individuals_or_groups_evil_corrupt_or_malicious': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_incites_hatred': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_insults_about_emotional_romantic_and_or_sexual_attraction': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_physically_or_mentally_inferior': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_subhuman_comparisons': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_bias_superiority_or_subjugation_of_a_group': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q3_unfair_bias_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_conspiracy_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_contradicts_expert_consensus': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_false_theories': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_other': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q4_misinformation_political': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'Q_overall': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'context': Text(shape=(), dtype=string),
    'degree_of_harm': ClassLabel(shape=(), dtype=int64, num_classes=5),
    'harm_type': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=32)),
    'id': Scalar(shape=(), dtype=int64),
    'item_id': Scalar(shape=(), dtype=int64),
    'phase': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_age': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_education': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rater_gender': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'rater_id': Scalar(shape=(), dtype=int64),
    'rater_locale': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'rater_race': ClassLabel(shape=(), dtype=int64, num_classes=6),
    'rater_raw_race': Text(shape=(), dtype=string),
    'response': Text(shape=(), dtype=string),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
Q1_全体の会話_評価クラスラベルint64会話のわかりやすさを評価します。
Q2_有害なコンテンツ_明示的_性的クラスラベルint64
Q2_有害な内容_金融_アドバイスクラスラベルint64
Q2_人や動物に対する有害な内容クラスラベルint64
Q2_有害な内容の健康と安全性の主張クラスラベルint64
Q2_有害なコンテンツ_ハウ_トス_有害な活動についてクラスラベルint64
Q2_有害なコンテンツの猥褻行為または冒涜行為クラスラベルint64
Q2_有害な内容_その他クラスラベルint64
Q2_有害なコンテンツ_全体クラスラベルint64
Q2_有害な内容の個人情報クラスラベルint64
Q2_有害なコンテンツの宣伝またはコンドンの有害な規制商品の使用クラスラベルint64
Q2_有害なコンテンツの宣伝または暴力の容認クラスラベルint64
Q2_有害な内容_暴力的_または残虐な内容クラスラベルint64
Q3_3_上記の属性のいずれかに基づいて、人種的宗教的またはその他の中傷やステレオタイプを扇動または促進するクラスラベルint64
Q3_個人またはグループに対する偏見による悪の腐敗または悪意の呼びかけクラスラベルint64
Q3_バイアス_扇動_憎しみクラスラベルint64
Q3 感情的、ロマンチック、または性的魅力についての偏見に対する侮辱クラスラベルint64
Q3_バイアス_その他クラスラベルint64
Q3_身体的または精神的に劣ったバイアスクラスラベルint64
Q3_バイアス_亜人_比較クラスラベルint64
Q3_グループの優位性または征服に関するバイアスクラスラベルint64
Q3_不公平なバイアス_全体クラスラベルint64
Q4_誤った情報_陰謀論_理論クラスラベルint64
Q4_誤った情報_矛盾_専門家_コンセンサスクラスラベルint64
Q4_誤った情報_偽りの理論クラスラベルint64
Q4_誤情報_その他クラスラベルint64
Q4_誤った情報_全体クラスラベルint64
Q4_誤った情報_政治的クラスラベルint64
Q_全体クラスラベルint64
コンテクスト文章会話は、チャットボットの最終応答の前に変わります。
害の程度クラスラベルint64安全リスクの重大度の手書きの注釈付き評価。
害の種類シーケンス(クラスラベル) (なし、) int64会話の有害トピックに手書きで注釈を付けたもの。
IDスカラーint64各行の数値識別子。単一の会話に対する単一の評価者によるすべての評価を表します。
アイテムIDスカラーint64各会話の数値識別子。
段階クラスラベルint64 3 つの異なる期間のうちの 1 つ。
評価者_年齢クラスラベルint64評価者の年齢層。
評価者_教育クラスラベルint64評価者の教育。
評価者の性別クラスラベルint64評価者の性別。
評価者IDスカラーint64各評価者の数値識別子。
評価者_ロケールクラスラベルint64評価者のロケール。
評価者_レースクラスラベルint64評価者の人種/民族。
評価者_生_レース文章5 つのカテゴリに単純化する前の、評価者の自己申告の生の人種/民族。
応答文章会話における最後のチャットボットの応答。