bot_adversarial_dialogue

  • Mô tả :

Bộ dữ liệu đối thoại đối nghịch của Bot.

Các tập dữ liệu đối thoại được gắn nhãn mang tính xúc phạm từ nhiệm vụ Đối thoại đối nghịch với Bot. Các cuộc đối thoại được thu thập bằng cách yêu cầu con người nói chuyện với bot.

Thêm chi tiết trong bài báo .

@misc{xu2021recipes,
      title={Recipes for Safety in Open-domain Chatbots},
      author={Jing Xu and Da Ju and Margaret Li and Y-Lan Boureau and Jason Weston and Emily Dinan},
      year={2021},
      eprint={2010.07079},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

bot_adversarial_dialogue/dialogue_datasets (cấu hình mặc định)

  • Mô tả cấu hình : Các bộ dữ liệu hội thoại, được chia thành các phần đào tạo, xác thực và kiểm tra.

  • Kích thước tải xuống : 3.06 MiB

  • Kích thước tập dữ liệu : 23.38 MiB

  • Chia tách :

Tách ra Ví dụ
'test' 2,598
'train' 69.274
'valid' 7.002
  • Cấu trúc tính năng :
FeaturesDict({
    'bot_persona': Sequence(Text(shape=(), dtype=string)),
    'dialogue_id': float32,
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'round_id': float32,
    'speaker_to_eval': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
bot_persona Trình tự(Văn bản) (Không có,) sợi dây Nhân vật được mạo danh bởi bot.
hội thoại_id Tenxơ phao32
tập_done Tenxơ bool
nhận dạng Chữ sợi dây Id của mẫu.
nhãn Nhãn lớp int64
vòng_id Tenxơ phao32
loa_to_eval Chữ sợi dây Người nói những lời phát biểu được dán nhãn.
chữ Chữ sợi dây Cách nói để phân loại.

bot_adversarial_dialogue/human_nonadv_safety_eval

  • Mô tả cấu hình : Một bộ đánh giá an toàn con người được các nhân viên sử dụng nguồn lực từ cộng đồng đánh giá về mức độ xúc phạm.

  • Kích thước tải xuống : 10.57 KiB

  • Kích thước tập dữ liệu : 34.55 KiB

  • Chia tách :

Tách ra Ví dụ
'test' 180
  • Cấu trúc tính năng :
FeaturesDict({
    'episode_done': bool,
    'id': Text(shape=(), dtype=string),
    'labels': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'text': Text(shape=(), dtype=string),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
tập_done Tenxơ bool
nhận dạng Chữ sợi dây Id của mẫu.
nhãn Nhãn lớp int64
chữ Chữ sợi dây Cách nói để phân loại.