امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

سامسونگ

 • توضیحات :

SAMSum Corpus شامل بیش از 16 هزار گفتگوی گپ با خلاصه های حاوی دست نوشته های دستی است.

دو ویژگی وجود دارد:

 • dialog: متن گفتگو.
 • خلاصه: خلاصه کتبی گفتگوی انسانی.
 • id: شناسه یک مثال.

 • صفحه اصلی : https://arxiv.org/src/1911.12237v2/anc

 • کد منبع : tfds.summarization.Samsum

 • نسخه ها :

  • 1.0.0 (پیش فرض): بدون یادداشت انتشار.
 • اندازه بارگیری : Unknown size

 • اندازه مجموعه داده : 10.71 MiB

 • دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در download_config.manual_dir (به طور پیش فرض ~/tensorflow_datasets/downloads/manual/ ):
  https://arxiv.org/src/1911.12237v2/anc/corpus.7z را بارگیری کنید ، train.json ، val.json و test.json را از حالت فشرده خارج کرده و در دفترچه راهنما قرار دهید.

 • ذخیره خودکار ( مستندات ): بله

 • تقسیم :

شکاف مثال ها
'test' 819
'train' 14،732
'validation' 818
 • ویژگی ها :
FeaturesDict({
  'dialogue': Text(shape=(), dtype=tf.string),
  'id': Text(shape=(), dtype=tf.string),
  'summary': Text(shape=(), dtype=tf.string),
})
 • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('dialogue', 'summary')

 • نقل قول :

@article{gliwa2019samsum,
 title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
 author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
 journal={arXiv preprint arXiv:1911.12237},
 year={2019}
}