ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

หนังสือ

  • รายละเอียด:

BookSum: ชุดข้อมูลสำหรับการสรุปคำบรรยายแบบยาว

การใช้งานนี้ในปัจจุบันสนับสนุนเฉพาะบทสรุปหนังสือและบทเท่านั้น

GitHub: https://github.com/salesforce/booksum

  • โฮมเพจ: https://github.com/salesforce/booksum

  • รหัสที่มา: tfds.summarization.booksum.Booksum

  • รุ่น:

    • 1.0.0 (เริ่มต้น): เริ่มต้นปล่อย
  • ขนาดการดาวน์โหลด: Unknown size

  • คำแนะนำการดาวน์โหลดคู่มือ: ชุดนี้คุณจะต้องดาวน์โหลดข้อมูลแหล่งที่มาของตนเองลงใน download_config.manual_dir (ค่าเริ่มต้น ~/tensorflow_datasets/downloads/manual/ ):

    1) ไปที่ https://github.com/salesforce/booksum, และเรียกใช้ขั้นตอนที่ 1-3 วางทั้ง booksum โครงการคอมไพล์ในโฟลเดอร์คู่มือ 2) ดาวน์โหลดหนังสือ chapterized จาก https://storage.cloud.google.com/sfr-books-dataset-chapters-research/all_chapterized_books.zip และเปิดเครื่องรูดไปยังโฟลเดอร์คู่มือ

โฟลเดอร์คู่มือควรมีไดเร็กทอรีต่อไปนี้:

- `booksum/`
- `all_chapterized_books/`
  • ออโต้แคช ( เอกสาร ): ใช่ (การทดสอบการตรวจสอบ) เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • คุณสมบัติ:

FeaturesDict({
    'document': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('document', 'summary')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization},
      author={Wojciech Kry{'s}ci{'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

booksum/book (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: สรุปหนังสือระดับ

  • ขนาดชุด: 208.81 MiB

  • แยก:

แยก ตัวอย่าง
'test' 46
'train' 312
'validation' 45

หนังสือ/บท

  • คำอธิบาย Config: สรุปบทที่ระดับ

  • ขนาดชุด: 216.71 MiB

  • แยก:

แยก ตัวอย่าง
'test' 1,083
'train' 6,524
'validation' 891