لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

irc_disentanglement

  • الوصف :

تحتوي مجموعة بيانات IRC Disentanglement على أكثر من 77563 رسالة من قناة Ubuntu IRC.

تتضمن الميزات معرف الرسالة ونص الرسالة والطابع الزمني. الهدف هو قائمة الرسائل التي ترد عليها الرسالة الحالية. يحتوي كل سجل على قائمة من الرسائل من يوم واحد من دردشة IRC.

  • الصفحة الرئيسية : https://jkk.name/irc-disentanglement

  • شفرة المصدر : tfds.text.IrcDisentanglement

  • إصدارات :

    • 2.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 113.53 MiB

  • حجم مجموعة البيانات : 26.59 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 10
'train' 153
'validation' 10
  • الميزات :
FeaturesDict({
    'day': Sequence({
        'id': Text(shape=(), dtype=tf.string),
        'parents': Sequence(Text(shape=(), dtype=tf.string)),
        'text': Text(shape=(), dtype=tf.string),
        'timestamp': Text(shape=(), dtype=tf.string),
    }),
})
  • الاقتباس :
@InProceedings{acl19disentangle,
  author    = {Jonathan K. Kummerfeld and Sai R. Gouravajhala and Joseph Peper and Vignesh Athreya and Chulaka Gunasekara and Jatin Ganhotra and Siva Sankalp Patel and Lazaros Polymenakos and Walter S. Lasecki},
  title     = {A Large-Scale Corpus for Conversation Disentanglement},
  booktitle = {Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics},
  location  = {Florence, Italy},
  month     = {July},
  year      = {2019},
  doi       = {10.18653/v1/P19-1374},
  pages     = {3846--3856},
  url       = {https://aclweb.org/anthology/papers/P/P19/P19-1374/},
  arxiv     = {https://arxiv.org/abs/1810.11118},
  software  = {https://jkk.name/irc-disentanglement},
  data      = {https://jkk.name/irc-disentanglement},
}