امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

سامسونگ

  • توضیحات :

SAMSum Corpus شامل بیش از 16 هزار گفتگوی گپ با خلاصه های حاوی دست نوشته های دستی است.

دو ویژگی وجود دارد:

  • dialog: متن گفتگو.
  • خلاصه: خلاصه کتبی گفتگوی انسانی.
  • id: شناسه یک مثال.

  • صفحه اصلی : https://arxiv.org/src/1911.12237v2/anc

  • کد منبع : tfds.summarization.Samsum

  • نسخه ها :

    • 1.0.0 (پیش فرض): بدون یادداشت انتشار.
  • اندازه بارگیری : Unknown size

  • اندازه مجموعه داده : 10.71 MiB

  • دستورالعمل های بارگیری دستی : برای این مجموعه داده لازم است که داده های منبع را به صورت دستی در download_config.manual_dir (به طور پیش فرض ~/tensorflow_datasets/downloads/manual/ ):
    https://arxiv.org/src/1911.12237v2/anc/corpus.7z را بارگیری کنید ، train.json ، val.json و test.json را از حالت فشرده خارج کرده و در دفترچه راهنما قرار دهید.

  • ذخیره خودکار ( مستندات ): بله

  • تقسیم :

شکاف مثال ها
'test' 819
'train' 14،732
'validation' 818
  • ویژگی ها :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): ('dialogue', 'summary')

  • نقل قول :

@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}