サムスン

  • 説明

SAMSum Corpusには、手動で注釈が付けられた要約を含む16kを超えるチャットダイアログが含まれています。

2つの機能があります。

  • 対話:対話のテキスト。
  • 要約:対話の人間による要約。
  • id:例のID。

  • ホームページhttps://arxiv.org/src/1911.12237v2/anc

  • ソースコードtfds.summarization.Samsum

  • バージョン

    • 1.0.0 (デフォルト):リリースノート。
  • ダウンロードサイズUnknown size

  • データセットサイズ10.71 MiB

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):
    ダウンロードhttps://arxiv.org/src/1911.12237v2/anc/corpus.7z、マニュアルfollderで解凍し、場所train.json、val.jsonとtest.json。

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'test' 819
'train' 14,732
'validation' 818
  • 特長
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • 引用
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}