امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

مقالات علمی

  • توضیحات :

مجموعه داده های مقالات علمی شامل دو مجموعه اسناد طولانی و ساختاری است. مجموعه داده ها از مخازن ArXiv و PubMed OpenAccess بدست می آیند.

هر دو "arxiv" و "pubmed" دو ویژگی دارند:

  • مقاله: متن اصلی سند ، نمودارهای جدا شده توسط "/ n".
  • abstract: چکیده سند ، نمودارهای جدا شده توسط "/ n".
  • section_names: عناوین بخشها ، جدا شده توسط "/ n".

  • صفحه اصلی : https://github.com/armancohan/long-summarization

  • کد منبع : tfds.summarization.ScientificPapers

  • نسخه ها :

    • 1.1.0 : بدون یادداشت انتشار.
    • 1.1.1 (پیش فرض): بدون یادداشت انتشار.
  • اندازه بارگیری : 4.20 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • ویژگی ها :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('article', 'abstract')

  • نقل قول :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers / arxiv (پیکربندی پیش فرض)

  • شرح پیکربندی : اسناد موجود در مخزن ArXiv.

  • اندازه مجموعه داده : 7.07 GiB

  • تقسیم :

شکاف مثال ها
'test' 6،440
'train' 203،037
'validation' 6،436

کاغذهای علمی / منتشر شده

  • شرح پیکربندی : اسناد موجود در مخزن PubMed.

  • اندازه مجموعه داده : 2.34 GiB

  • تقسیم :

شکاف مثال ها
'test' 6658
'train' 119،924
'validation' 6،633