karya tulis ilmiah

Deskripsi :

Dataset karya ilmiah berisi dua kumpulan dokumen yang panjang dan terstruktur. Kumpulan data diperoleh dari repositori OpenAccess ArXiv dan PubMed.

Baik "arxiv" dan "pubmed" memiliki dua fitur:

artikel: badan dokumen, halaman dipisahkan dengan "/n".
abstrak: abstrak dokumen, pagragraf dipisahkan dengan "/n".
nama_bagian: judul bagian, dipisahkan dengan "/n".
Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://github.com/armancohan/long-summarization
Kode sumber : tfds.datasets.scientific_papers.Builder
Versi :
- 1.1.0 : Tidak ada catatan rilis.
- 1.1.1 (default): Tidak ada catatan rilis.
Ukuran unduhan : 4.20 GiB
Di-cache otomatis ( dokumentasi ): Tidak
Struktur fitur :

FeaturesDict({
    'abstract': Text(shape=(), dtype=string),
    'article': Text(shape=(), dtype=string),
    'section_names': Text(shape=(), dtype=string),
})

Dokumentasi fitur :

Fitur	Kelas	Dtype
	fiturDict
abstrak	Teks	rangkaian
artikel	Teks	rangkaian
nama_bagian	Teks	rangkaian

Kunci yang diawasi (Lihat as_supervised doc ): ('article', 'abstract')
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

scientific_papers/arxiv (konfigurasi default)

Deskripsi konfigurasi : Dokumen dari repositori ArXiv.
Ukuran dataset : 7.07 GiB
Perpecahan :

Membelah	Contoh
`'test'`	6.440
`'train'`	203.037
`'validation'`	6.436

Contoh ( tfds.as_dataframe ):

karya_ilmiah/dipublikasikan

Deskripsi konfigurasi : Dokumen dari repositori PubMed.
Ukuran dataset : 2.34 GiB
Perpecahan :

Membelah	Contoh
`'test'`	6.658
`'train'`	119.924
`'validation'`	6.633

Contoh ( tfds.as_dataframe ):

karya tulis ilmiah Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.

scientific_papers/arxiv (konfigurasi default)

karya_ilmiah/dipublikasikan

karya tulis ilmiah