bot_adversarial_dialogue

  • الوصف :

مجموعة بيانات حوار الخصومة الآلية.

تم تصنيف مجموعات بيانات الحوار على أنها هجومية من مهمة Bot Adversarial Dialogue. تم جمع الحوارات من خلال مطالبة البشر بالتحدث بشكل عدائي مع الروبوتات.

مزيد من التفاصيل في الورقة .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (التكوين الافتراضي)

  • وصف التكوين : مجموعات بيانات الحوار، مقسمة إلى أقسام التدريب والتحقق والاختبار.

  • حجم التحميل : 3.06 MiB

  • حجم مجموعة البيانات : 23.38 MiB

  • الإنشقاقات :

ينقسم أمثلة
'test' 2,598
'train' 69,274
'valid' 7,002
  • هيكل الميزة :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
bot_persona التسلسل (النص) (لا أحد،) خيط الشخصية التي ينتحلها الروبوت.
معرف الحوار الموتر float32
الحلقة_تم الموتر منطقي
بطاقة تعريف نص خيط معرف العينة
تسميات ClassLabel int64
round_id الموتر float32
talk_to_eval نص خيط المتكلم من الأقوال المسمى.
نص نص خيط الكلام للتصنيف.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • وصف التكوين : تم تقييم مجموعة تقييم السلامة البشرية بواسطة العاملين في التعهيد الجماعي للتأكد من مدى الهجوم.

  • حجم التحميل : 10.57 KiB

  • حجم مجموعة البيانات : 34.55 KiB

  • الإنشقاقات :

ينقسم أمثلة
'test' 180
  • هيكل الميزة :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • وثائق الميزة :
ميزة فصل شكل نوع D وصف
المميزاتDict
الحلقة_تم الموتر منطقي
بطاقة تعريف نص خيط معرف العينة
تسميات ClassLabel int64
نص نص خيط الكلام للتصنيف.