xsum

  • คำอธิบาย :

ชุดข้อมูล Extreme Summarization (XSum)

มีคุณสมบัติสองประการ: - เอกสาร: ป้อนบทความข่าว - สรุป: สรุปหนึ่งประโยคของบทความ

ข้อมูลนี้จำเป็นต้องดาวน์โหลดและแตกไฟล์ด้วยตนเองตามที่อธิบายไว้ใน https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md โฟลเดอร์ 'xsum-extracts-from-downloads' จำเป็นต้องถูกบีบอัดเป็น 'xsum-extracts-from-downloads.tar.gz' และใส่ในโฟลเดอร์ที่ดาวน์โหลดด้วยตนเอง

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • โฮมเพจ : https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset

  • รหัสที่มา : tfds.summarization.Xsum

  • รุ่น :

    • 1.0.0 : ชุดข้อมูลที่ไม่มีการทำความสะอาด
    • 1.1.0 (ค่าเริ่มต้น): ลบเนื้อหาเว็บ
  • ขนาดการดาวน์โหลด : 2.59 MiB

  • ขนาดชุดข้อมูล : 512.03 MiB

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
    คำแนะนำการดาวน์โหลดโดยละเอียด (ซึ่งต้องใช้สคริปต์ที่กำหนดเอง) อยู่ที่นี่: https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts หลังจากนั้น โปรดใส่ไฟล์ xsum-extracts-from-downloads.tar.gz ใน manual_dir

  • แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่

  • แยก :

แยก ตัวอย่าง
'test' 11,301
'train' 203,577
'validation' 11,305
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เอกสาร ข้อความ สตริง
สรุป ข้อความ สตริง
  • การอ้างอิง :
@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}