لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

أوراق علمية

  • الوصف :

تحتوي مجموعات بيانات الأوراق العلمية على مجموعتين من المستندات الطويلة والمنظمة. يتم الحصول على مجموعات البيانات من مستودعات ArXiv و PubMed OpenAccess.

كل من "arxiv" و "pubmed" لهما ميزتان:

  • مقالة: نص المستند ، والرسومات المفصولة بعلامة "/ n".
  • الملخص: ملخص المستند مفصولة بعلامة "/ n".
  • section_names: عناوين الأقسام مفصولة بعلامة "/ n".

  • الصفحة الرئيسية : https://github.com/armancohan/long-summarization

  • كود المصدر : tfds.summarization.ScientificPapers

  • إصدارات :

    • 1.1.0 : لا توجد ملاحظات إصدار.
    • 1.1.1 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 4.20 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الميزات :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
  • المفاتيح الخاضعة للإشراف (انظر as_supervised doc ): ('article', 'abstract')

  • الشكل ( tfds.show_examples ): غير مدعوم.

  • الاقتباس :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers / arxiv (التكوين الافتراضي)

  • وصف التكوين : وثائق من مستودع ArXiv.

  • حجم مجموعة البيانات : 7.07 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 6440
'train' 203،037
'validation' 6436

Scientific_papers / منشورات

  • وصف التكوين : وثائق من مستودع PubMed.

  • حجم مجموعة البيانات : 2.34 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 6،658
'train' 11924
'validation' 6633