samsum

  • Açıklama:

SAMSum Corpus, manuel olarak açıklamalı özetler içeren 16k'dan fazla sohbet diyalogu içerir.

İki özellik vardır:

  • diyalog: diyalog metni.
  • özet: diyaloğun insan tarafından yazılmış özeti.
  • id: bir örneğin kimliği.

  • Anasayfa: https://arxiv.org/src/1911.12237v2/anc

  • Kaynak kodu: tfds.summarization.Samsum

  • sürümleri:

    • 1.0.0 (varsayılan): Hayır sürüm notları.
  • İndirme boyutu: Unknown size

  • Veri kümesi boyutu: 10.71 MiB

  • Manuel indirme talimatları: Bu veri kümesi içine elle kaynak verileri indirmenizi gerektirir download_config.manual_dir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
    İndir https://arxiv.org/src/1911.12237v2/anc/corpus.7z, manuel follder içinde kaldırmakta ve yer train.json, val.json ve test.json.

  • Otomatik önbelleğe ( dokümantasyon ): Evet

  • Splits:

Bölmek Örnekler
'test' 819
'train' 14.732
'validation' 818
  • Özellikler:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • Citation:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}