ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

หน้าจอสรุป

  • รายละเอียด:

ชุดข้อมูล SummScreen Summarization เวอร์ชันที่ไม่ระบุตัวตน เวอร์ชันที่ไม่ได้แปลงเป็นโทเค็น

การแยกการฝึก/การทดสอบ/การทดสอบและการกรองจะอิงตามชุดข้อมูลโทเค็นสุดท้าย แต่การถอดเสียงและการสรุปที่มีให้นั้นอิงตามข้อความที่ไม่ได้รับการเข้ารหัส

มีสองคุณสมบัติ:

  • การถอดเสียง: การถอดเสียงตอนเต็ม บทสนทนาแต่ละบรรทัดคั่นด้วยการขึ้นบรรทัดใหม่
  • สรุป: บทสรุปหรือบทสรุปของตอนต่างๆ

  • โฮมเพจ: https://github.com/mingdachen/SummScreen

  • รหัสที่มา: tfds.summarization.summscreen.Summscreen

  • รุ่น:

    • 1.0.0 (เริ่มต้น): เริ่มต้นปล่อย
  • ขนาดการดาวน์โหลด: 841.27 MiB

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('transcript', 'recap')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

summscreen/fd (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: ForeverDreaming

  • ขนาดชุด: 132.99 MiB

  • ออโต้แคช ( เอกสาร ): ใช่

  • แยก:

แยก ตัวอย่าง
'test' 337
'train' 3,673
'validation' 338
  • คุณสมบัติ:
FeaturesDict({
    'episode_number': Text(shape=(), dtype=tf.string),
    'episode_title': Text(shape=(), dtype=tf.string),
    'recap': Text(shape=(), dtype=tf.string),
    'show_title': Text(shape=(), dtype=tf.string),
    'transcript': Text(shape=(), dtype=tf.string),
    'transcript_author': Text(shape=(), dtype=tf.string),
})

หน้าจอสรุป/tms

  • คำอธิบาย Config: TVMegaSite

  • ขนาดชุด: 592.53 MiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'test' 1,793
'train' 18,915
'validation' 1,795
  • คุณสมบัติ:
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=tf.string),
    'recap': Text(shape=(), dtype=tf.string),
    'recap_author': Text(shape=(), dtype=tf.string),
    'show_title': Text(shape=(), dtype=tf.string),
    'transcript': Text(shape=(), dtype=tf.string),
    'transcript_author': Tensor(shape=(None,), dtype=tf.string),
})