kitaplık

  • Açıklama :

BookSum: Uzun Biçimli Anlatım Özeti için Veri Kümeleri Koleksiyonu

Bu uygulama şu anda yalnızca kitap ve bölüm özetlerini desteklemektedir.

GitHub: https://github.com/salesforce/booksum

Kılavuz klasörü aşağıdaki dizinleri içermelidir:

- `booksum/`
- `all_chapterized_books/`
  • Otomatik önbelleğe alınmış ( belgeler ): Evet (test, doğrulama), Yalnızca shuffle_files=False (tren) olduğunda

  • Özellik yapısı :

FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
belge Metin sicim
özet Metin sicim
@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

Booksum/book (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Kitap düzeyinde özetleme

  • Veri kümesi boyutu : 208.81 MiB

  • bölmeler :

Bölmek örnekler
'test' 46
'train' 312
'validation' 45

kitap/bölüm

  • Yapılandırma açıklaması : bölüm düzeyinde özetleme

  • Veri kümesi boyutu : 216.71 MiB

  • bölmeler :

Bölmek örnekler
'test' 1.083
'train' 6.524
'validation' 891