- Açıklama :
Bilimsel makaleler veri kümeleri, iki uzun ve yapılandırılmış belge kümesi içerir. Veri kümeleri, ArXiv ve PubMed OpenAccess depolarından elde edilir.
Hem "arxiv" hem de "pubmed" iki özelliğe sahiptir:
- makale: belgenin gövdesi, "/n" ile ayrılmış paragraflar.
- özet: belgenin özeti, "/n" ile ayrılmış sayfalar.
bölüm_adları: "/n" ile ayrılmış bölümlerin başlıkları.
Ana sayfa : https://github.com/armancohan/long-summarization
Kaynak kodu :
tfds.summarization.ScientificPapers
Sürümler :
-
1.1.0
: Sürüm notu yok. -
1.1.1
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
4.20 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Özellik yapısı :
FeaturesDict({
'abstract': Text(shape=(), dtype=tf.string),
'article': Text(shape=(), dtype=tf.string),
'section_names': Text(shape=(), dtype=tf.string),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
Öz | Metin | tf.string | ||
makale | Metin | tf.string | ||
bölüm_adları | Metin | tf.string |
Denetlenen anahtarlar (bkz
as_supervised
doc ):('article', 'abstract')
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ): Eksik.
alıntı :
@article{Cohan_2018,
title={A Discourse-Aware Attention Model for Abstractive Summarization of
Long Documents},
url={http://dx.doi.org/10.18653/v1/n18-2097},
DOI={10.18653/v1/n18-2097},
journal={Proceedings of the 2018 Conference of the North American Chapter of
the Association for Computational Linguistics: Human Language
Technologies, Volume 2 (Short Papers)},
publisher={Association for Computational Linguistics},
author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
year={2018}
}
bilimsel_kağıtlar/arxiv (varsayılan yapılandırma)
Yapılandırma açıklaması : ArXiv deposundan belgeler.
Veri kümesi boyutu :
7.07 GiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 6.440 |
'train' | 203.037 |
'validation' | 6.436 |
bilimsel_kağıtlar/yayınlanan
Yapılandırma açıklaması : PubMed deposundan belgeler.
Veri kümesi boyutu :
2.34 GiB
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 6.658 |
'train' | 119.924 |
'validation' | 6.633 |