Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

samsum

  • Deskripsi :

SAMSum Corpus berisi lebih dari 16 ribu dialog obrolan dengan ringkasan beranotasi manual.

Ada dua fitur:

  • dialog: teks dialog.
  • ringkasan: ringkasan tertulis manusia dari dialog.
  • id: id contoh.

  • Situs web : https://arxiv.org/src/1911.12237v2/anc

  • Kode sumber : tfds.summarization.Samsum

  • Versi :

    • 1.0.0 (default): Tidak ada catatan rilis.
  • Ukuran unduhan : Unknown size

  • Ukuran 10.71 MiB data : 10.71 MiB

  • Petunjuk pengunduhan manual : Dataset ini mengharuskan Anda untuk mengunduh data sumber secara manual ke dalam download_config.manual_dir (defaultnya ~/tensorflow_datasets/downloads/manual/ ):
    Unduh https://arxiv.org/src/1911.12237v2/anc/corpus.7z, dekompresi dan tempatkan train.json, val.json dan test.json di pengikut manual.

  • Cache otomatis ( dokumentasi ): Ya

  • Split :

Membagi Contoh
'test' 819
'train' 14.732
'validation' 818
  • Fitur :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}