reddit_tifu

  • คำอธิบาย :

ชุดข้อมูล Reddit โดยที่ TIFU หมายถึงชื่อของ subbreddit /r/tifu ตามที่กำหนดไว้ในสื่อเผยแพร่ สไตล์ "สั้น" ใช้ชื่อเป็นบทสรุป และ "ยาว" ใช้ tldr เป็นสรุป

คุณสมบัติรวมถึง:

  • เอกสาร: โพสต์ข้อความโดยไม่มี tldr
  • tldr: บรรทัด tldr
  • หัวเรื่อง: หัวเรื่องที่ถูกตัดแต่งโดยไม่มี tldr
  • อัพ: อัพโหวต
  • คะแนน: คะแนน
  • num_comments: จำนวนความคิดเห็น
  • upvote_ratio: อัตราส่วนการโหวต

  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/ctr4si/MMN

  • รหัสที่มา : tfds.datasets.reddit_tifu.Builder

  • รุ่น :

    • 1.1.0 : ลบเอกสารเปล่าและสตริงสรุป
    • 1.1.1 : เพิ่มการแยกรถไฟ การพัฒนา และการทดสอบ (80/10/10) ที่ใช้ใน PEGASUS ( https://arxiv.org/abs/1912.08777 ) ในการกำหนดค่าแยกต่างหาก สิ่งเหล่านี้ถูกสร้างขึ้นแบบสุ่มโดยใช้ฟังก์ชันแยก tfds และกำลังเผยแพร่เพื่อให้แน่ใจว่าผลลัพธ์ใน Reddit Tifu Long นั้นสามารถทำซ้ำได้และเปรียบเทียบได้ เพิ่ม id ให้กับดาต้าพอยต์ด้วย
    • 1.1.2 (ค่าเริ่มต้น): อัปโหลดการแยกที่ถูกต้องแล้ว
  • โครงสร้างคุณลักษณะ :

FeaturesDict({
    'documents': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'num_comments': float32,
    'score': float32,
    'title': Text(shape=(), dtype=string),
    'tldr': Text(shape=(), dtype=string),
    'ups': float32,
    'upvote_ratio': float32,
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
เอกสาร ข้อความ สตริง
รหัส ข้อความ สตริง
num_comments เทนเซอร์ ลอย32
คะแนน เทนเซอร์ ลอย32
ชื่อ ข้อความ สตริง
tldr ข้อความ สตริง
อัพ เทนเซอร์ ลอย32
upvote_ratio เทนเซอร์ ลอย32
  • รูปภาพ ( tfds.show_examples ): ไม่รองรับ

  • การอ้างอิง :

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/short (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย การกำหนดค่า : การใช้ชื่อเป็นข้อมูลสรุป

  • ขนาดการดาวน์โหลด : 639.54 MiB

  • ขนาดชุดข้อมูล : 141.46 MiB

  • แคชอัตโนมัติ ( เอกสาร ): เฉพาะเมื่อ shuffle_files=False (รถไฟ)

  • แยก :

แยก ตัวอย่าง
'train' 79,740

reddit_tifu/long

  • คำอธิบาย การกำหนดค่า : การใช้ TLDR เป็นข้อมูลสรุป

  • ขนาดการดาวน์โหลด : 639.54 MiB

  • ขนาดชุดข้อมูล : 93.10 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'train' 42,139

reddit_tifu/long_split

  • คำอธิบาย การกำหนดค่า : การใช้ TLDR เป็นข้อมูลสรุปและส่งคืนการแยกรถไฟ/การทดสอบ/การพัฒนา

  • ขนาดการดาวน์โหลด : 639.94 MiB

  • ขนาดชุดข้อมูล : 93.10 MiB

  • แคชอัตโนมัติ ( เอกสาร ): ใช่

  • แยก :

แยก ตัวอย่าง
'test' 4,214
'train' 33,711
'validation' 4,214