sum buku

  • Deskripsi :

BookSum: Kumpulan Kumpulan Data untuk Peringkasan Narasi Bentuk Panjang

Implementasi ini saat ini hanya mendukung ringkasan buku dan bab.

GitHub: https://github.com/salesforce/booksum

Folder manual harus berisi direktori berikut:

- `booksum/`
- `all_chapterized_books/`
  • Auto-cached ( dokumentasi ): Ya (test, validasi), Hanya ketika shuffle_files=False (train)

  • Struktur fitur :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
dokumen Teks rangkaian
ringkasan Teks rangkaian
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/buku (konfigurasi default)

  • Deskripsi konfigurasi : Peringkasan tingkat buku

  • Ukuran dataset : 208.81 MiB

  • Perpecahan :

Membelah Contoh
'test' 46
'train' 312
'validation' 45

buku/bab

  • Deskripsi konfigurasi : ringkasan tingkat bab

  • Ukuran dataset : 216.71 MiB

  • Perpecahan :

Membelah Contoh
'test' 1.083
'train' 6.524
'validation' 891