irc_disentanglement

  • Mô tả :

Tập dữ liệu IRC Disentanglement chứa hơn 77.563 thông báo từ kênh IRC của Ubuntu.

Các tính năng bao gồm id tin nhắn, văn bản tin nhắn và dấu thời gian. Mục tiêu là danh sách các tin nhắn mà tin nhắn hiện tại trả lời. Mỗi bản ghi chứa một danh sách các tin nhắn từ một ngày trò chuyện IRC.

Tách ra ví dụ
'test' 10
'train' 153
'validation' 10
  • Cấu trúc tính năng :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
ngày Sự phối hợp
ngày/mã Chữ sợi dây
ngày/bố mẹ Trình tự (Văn bản) (Không có,) sợi dây
ngày/văn bản Chữ sợi dây
ngày/dấu thời gian Chữ sợi dây
  • trích dẫn :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}