bilimsel belgeler

  • Açıklama :

Bilimsel makaleler veri kümeleri, iki uzun ve yapılandırılmış belge kümesi içerir. Veri kümeleri, ArXiv ve PubMed OpenAccess depolarından elde edilir.

Hem "arxiv" hem de "pubmed" iki özelliğe sahiptir:

  • makale: belgenin gövdesi, "/n" ile ayrılmış paragraflar.
  • özet: belgenin özeti, "/n" ile ayrılmış sayfalar.
  • bölüm_adları: "/n" ile ayrılmış bölümlerin başlıkları.

  • Ana sayfa : https://github.com/armancohan/long-summarization

  • Kaynak kodu : tfds.summarization.ScientificPapers

  • Sürümler :

    • 1.1.0 : Sürüm notu yok.
    • 1.1.1 (varsayılan): Sürüm notu yok.
  • İndirme boyutu : 4.20 GiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Özellik yapısı :

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
Öz Metin tf.string
makale Metin tf.string
bölüm_adları Metin tf.string
@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

bilimsel_kağıtlar/arxiv (varsayılan yapılandırma)

  • Yapılandırma açıklaması : ArXiv deposundan belgeler.

  • Veri kümesi boyutu : 7.07 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 6.440
'train' 203.037
'validation' 6.436

bilimsel_kağıtlar/yayınlanan

  • Yapılandırma açıklaması : PubMed deposundan belgeler.

  • Veri kümesi boyutu : 2.34 GiB

  • Bölmeler :

Bölmek Örnekler
'test' 6.658
'train' 119.924
'validation' 6.633