ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

wikihow

  • รายละเอียด:

wikiHow เป็นชุดข้อมูลขนาดใหญ่ใหม่โดยใช้ wikiHow ออนไลน์ ( http://www.wikihow.com/ ) ฐานความรู้

มีสองคุณสมบัติ: - ข้อความ: วิกิฮาวตอบข้อความ - พาดหัว: ตัวหนาเป็นบทสรุป

มีสองเวอร์ชันแยกกัน: - ทั้งหมด: ประกอบด้วยการต่อกันของย่อหน้าทั้งหมดเป็นบทความและตัวหนาเป็นข้อมูลสรุปอ้างอิง - ก.ย. : ประกอบด้วยแต่ละย่อหน้าและบทสรุป

ดาวน์โหลด "wikihowAll.csv" และ "wikihowSep.csv" จาก https://github.com/mahnazkoupaee/WikiHow-Dataset และวางไว้ในโฟลเดอร์คู่มือ https://www.tensorflow.org/datasets/api_docs/python/tfds/ ดาวน์โหลด / DownloadConfig ฝึกอบรม / การตรวจสอบ / ทดสอบแยกที่ให้บริการโดยผู้เขียน การประมวลผลล่วงหน้าใช้เพื่อลบบทความสั้น (ความยาวบทคัดย่อ < 0.75 ความยาวของบทความ) และล้างเครื่องหมายจุลภาคเพิ่มเติม

  • โฮมเพจ: https://github.com/mahnazkoupaee/WikiHow-Dataset

  • รหัสที่มา: tfds.summarization.Wikihow

  • รุ่น:

    • 1.2.0 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: 5.21 MiB

  • ขนาดชุด: Unknown size

  • คำแนะนำการดาวน์โหลดคู่มือ: ชุดนี้คุณจะต้องดาวน์โหลดข้อมูลแหล่งที่มาของตนเองลงใน download_config.manual_dir (ค่าเริ่มต้น ~/tensorflow_datasets/downloads/manual/ ):
    เชื่อมโยงไปยังไฟล์ที่สามารถพบได้ใน https://github.com/mahnazkoupaee/WikiHow-Dataset กรุณาดาวน์โหลดทั้ง wikihowAll.csv และ wikihowSep.csv

  • ออโต้แคช ( เอกสาร ): ไม่ทราบ

  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('text', 'headline')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

วิกิฮาว/ทั้งหมด (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: ใช้กำหนดการทุกย่อหน้าเป็นบทความและเส้นหนาเป็นบทสรุปอ้างอิง

  • แยก:

แยก ตัวอย่าง
'test' 5,577
'train' 157,252
'validation' 5,599
  • คุณสมบัติ:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow/sep

  • คำอธิบาย Config: ใช้แต่ละย่อหน้าและสรุป

  • แยก:

แยก ตัวอย่าง
'test' 37,800
'train' 1,060,732
'validation' 37,932
  • คุณสมบัติ:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})