irc_disentanglement

  • توضیحات :

مجموعه داده IRC Disentanglement شامل بیش از 77563 پیام از کانال IRC اوبونتو است.

ویژگی ها عبارتند از شناسه پیام، متن پیام و مهر زمان. هدف لیستی از پیام هایی است که پیام فعلی به آنها پاسخ می دهد. هر رکورد حاوی لیستی از پیام های یک روز چت IRC است.

شکاف مثال ها
'test' 10
'train' 153
'validation' 10
  • ساختار ویژگی :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=string),
        'parents': Sequence(Text(shape=(), dtype=string)),
        'text': Text(shape=(), dtype=string),
        'timestamp': Text(shape=(), dtype=string),
    }),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
روز توالی
روز/شناسه متن رشته
روز / والدین دنباله (متن) (هیچ یک،) رشته
روز / متن متن رشته
روز/مهر زمان متن رشته
  • نقل قول :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}