הסתבכות irc_

  • תיאור:

מערך הנתונים של IRC Disanganglement מכיל מעל 77,563 הודעות מערוץ IRC של אובונטו.

התכונות כוללות מזהה הודעה, טקסט הודעה וחותמת זמן. היעד הוא רשימת ההודעות שההודעה הנוכחית משיבה להן. כל רשומה מכילה רשימת הודעות מיום אחד של צ'אט IRC.

לְפַצֵל דוגמאות
'test' 10
'train' 153
'validation' 10
  • מאפיינים:
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=tf.string),
        'parents': Sequence(Text(shape=(), dtype=tf.string)),
        'text': Text(shape=(), dtype=tf.string),
        'timestamp': Text(shape=(), dtype=tf.string),
    }),
})
  • ציטוט:
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}