- Açıklama:
BookSum: Uzun Biçimli Anlatı Özetleme için Veri Kümeleri Koleksiyonu
Bu uygulama şu anda yalnızca kitap ve bölüm özetlerini desteklemektedir.
GitHub: https://github.com/salesforce/booksum
Anasayfa: https://github.com/salesforce/booksum
Kaynak kodu:
tfds.summarization.booksum.Booksum
sürümleri:
-
1.0.0
(varsayılan): Başlangıç salım.
-
İndirme boyutu:
Unknown size
Manuel indirme talimatları: Bu veri kümesi içine elle kaynak verileri indirmenizi gerektirir
download_config.manual_dir
(varsayılan olarak~/tensorflow_datasets/downloads/manual/
):1) a gidin https://github.com/salesforce/booksum, ve çalıştırma 1-3 adımları tekrarlayın. Bütün yerleştirin
booksum
manuel klasörde git projesi. 2) den chapterized kitapları indirin https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip manuel klasöre ve unzip.
Kılavuz klasörü aşağıdaki dizinleri içermelidir:
- `booksum/`
- `all_chapterized_books/`
Otomatik önbelleğe ( dokümantasyon ): Evet (test, doğrulama), Sadece zaman
shuffle_files=False
(tren)Özellikler:
FeaturesDict({
'document': Text(shape=(), dtype=tf.string),
'summary': Text(shape=(), dtype=tf.string),
})
Denetimli tuşları (Bkz
as_supervised
doc ):('document', 'summary')
Şekil ( tfds.show_examples ): desteklenmez.
Citation:
@article{kryscinski2021booksum,
title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
year={2021},
eprint={2105.08209},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
kitap/kitap (varsayılan yapılandırma)
Yapılandırma tanımı: Kitap düzey özetleme
Veri kümesi boyutu:
208.81 MiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 46 |
'train' | 312 |
'validation' | 45 |
- Örnekler ( tfds.as_dataframe ):
kitap/bölüm
Yapılandırma tanımı: bölüm düzeyinde özetleme
Veri kümesi boyutu:
216.71 MiB
Splits:
Bölmek | Örnekler |
---|---|
'test' | 1.083 |
'train' | 6.524 |
'validation' | 891 |
- Örnekler ( tfds.as_dataframe ):