مقالات علمی

توضیحات :

مجموعه داده های مقالات علمی شامل دو مجموعه از اسناد بلند و ساختار یافته است. مجموعه داده ها از مخازن ArXiv و PubMed OpenAccess به دست آمده اند.

"arxiv" و "pubmed" هر دو دارای دو ویژگی هستند:

مقاله: بدنه سند، صفحاتی که با "/n" از هم جدا شده اند.
چکیده: چکیده سند، صفحاتی که با "/n" از هم جدا شده اند.
section_names: عناوین بخش‌هایی که با "/n" از هم جدا شده‌اند.
اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/armancohan/long-summarization
کد منبع : tfds.datasets.scientific_papers.Builder
نسخه ها :
- 1.1.0 : بدون یادداشت انتشار.
- 1.1.1 (پیش فرض): بدون یادداشت انتشار.
حجم دانلود : 4.20 GiB
ذخیره خودکار ( اسناد ): خیر
ساختار ویژگی :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
چکیده	متن	رشته
مقاله	متن	رشته
بخش_نام ها	متن	رشته

کلیدهای نظارت شده (نگاه کنید به as_supervised doc ): ('article', 'abstract')
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
نقل قول :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (پیکربندی پیش‌فرض)

توضیحات پیکربندی : اسناد از مخزن ArXiv.
حجم مجموعه داده : 7.07 GiB
تقسیم ها :

شکاف	مثال ها
`'test'`	6,440
`'train'`	203,037
`'validation'`	6,436

مثال‌ها ( tfds.as_dataframe ):

مقالات علمی/pubmed

توضیحات پیکربندی : اسناد از مخزن PubMed.
حجم مجموعه داده : 2.34 GiB
تقسیم ها :

شکاف	مثال ها
`'test'`	6658
`'train'`	119924
`'validation'`	6633

مثال‌ها ( tfds.as_dataframe ):

مقالات علمی با مجموعه‌ها، منظم بمانید ذخیره و طبقه‌بندی محتوا براساس اولویت‌های شما.

Scientific_papers/arxiv (پیکربندی پیش‌فرض)

مقالات علمی/pubmed

مقالات علمی