과학 논문

  • 설명 :

과학 논문 데이터 세트에는 길고 구조화된 문서 두 세트가 포함되어 있습니다. 데이터 세트는 ArXiv 및 PubMed OpenAccess 리포지토리에서 가져옵니다.

"arxiv"와 "pubmed"에는 두 가지 기능이 있습니다.

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
요약 텍스트
기사 텍스트
섹션 이름 텍스트
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv(기본 구성)

  • 구성 설명 : ArXiv 저장소의 문서.

  • 데이터세트 크기 : 7.07 GiB

  • 분할 :

나뉘다
'test' 6,440
'train' 203,037
'validation' 6,436

Scientific_papers/pubmed

  • 구성 설명 : PubMed 저장소의 문서.

  • 데이터세트 크기 : 2.34 GiB

  • 분할 :

나뉘다
'test' 6,658
'train' 119,924
'validation' 6,633