irc_disentanglement

  • คำอธิบาย :

ชุดข้อมูล IRC Disentanglement มีข้อความมากกว่า 77,563 ข้อความจากช่อง IRC ของ Ubuntu

คุณสมบัติรวมถึงรหัสข้อความ ข้อความข้อความ และการประทับเวลา เป้าหมายคือรายการข้อความที่ข้อความปัจจุบันตอบกลับ แต่ละบันทึกประกอบด้วยรายการข้อความจากการแชท IRC หนึ่งวัน

แยก ตัวอย่าง
'test' 10
'train' 153
'validation' 10
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
วัน ลำดับ
วัน/รหัส ข้อความ สตริง
วัน/พ่อแม่ ลำดับ (ข้อความ) (ไม่มี,) สตริง
วัน/ข้อความ ข้อความ สตริง
วัน/เวลา ข้อความ สตริง
  • การอ้างอิง :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}