ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

ซัมซัม

  • รายละเอียด:

SAMSum Corpus มีบทสนทนาการแชทมากกว่า 16,000 รายการพร้อมการสรุปคำอธิบายประกอบด้วยตนเอง

มีสองคุณสมบัติ:

  • บทสนทนา: ข้อความของบทสนทนา
  • สรุป: สรุปบทสนทนาที่เขียนโดยมนุษย์
  • id: id ของตัวอย่าง

  • โฮมเพจ: https://arxiv.org/src/1911.12237v2/anc

  • รหัสที่มา: tfds.summarization.Samsum

  • รุ่น:

    • 1.0.0 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: Unknown size

  • ขนาดชุด: 10.71 MiB

  • คำแนะนำการดาวน์โหลดคู่มือ: ชุดนี้คุณจะต้องดาวน์โหลดข้อมูลแหล่งที่มาของตนเองลงใน download_config.manual_dir (ค่าเริ่มต้น ~/tensorflow_datasets/downloads/manual/ ):
    ดาวน์โหลด https://arxiv.org/src/1911.12237v2/anc/corpus.7z, ขยายและสถานที่ train.json, val.json และ test.json ใน follder คู่มือ

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'test' 819
'train' 14,732
'validation' 818
  • คุณสมบัติ:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}