ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

ห้องข่าว

  • รายละเอียด:

NEWSROOM เป็นชุดข้อมูลขนาดใหญ่สำหรับการฝึกอบรมและการประเมินระบบการสรุป ประกอบด้วยบทความ 1.3 ล้านบทความและบทสรุปที่เขียนโดยผู้เขียนและบรรณาธิการในห้องข่าวของสิ่งพิมพ์สำคัญ 38 แห่ง

คุณสมบัติของชุดข้อมูลประกอบด้วย: - ข้อความ: ป้อนข้อความข่าว - สรุป: สรุปสำหรับข่าว และคุณสมบัติเพิ่มเติม : - ชื่อ : ชื่อข่าว - url: url ของข่าว - วันที่: วันที่ของบทความ - ความหนาแน่น: ความหนาแน่นของสารสกัด - การปกปิด : การปกปิดแบบสารสกัด - การบีบอัด: อัตราการบีบอัด - density_bin: ต่ำ กลาง สูง - coverage_bin: แยก, นามธรรม - compression_bin: ต่ำ กลาง สูง

สามารถดาวน์โหลดชุดข้อมูลนี้ได้เมื่อมีการร้องขอ เปิดเครื่องรูดเนื้อหาทั้งหมด "train.jsonl, dev.josnl, test.jsonl" ไปยังโฟลเดอร์ tfds

  • โฮมเพจ: https://summari.es

  • รหัสที่มา: tfds.summarization.Newsroom

  • รุ่น:

    • 1.0.0 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: Unknown size

  • ขนาดชุด: Unknown size

  • คำแนะนำการดาวน์โหลดคู่มือ: ชุดนี้คุณจะต้องดาวน์โหลดข้อมูลแหล่งที่มาของตนเองลงใน download_config.manual_dir (ค่าเริ่มต้น ~/tensorflow_datasets/downloads/manual/ ):
    คุณควรดาวน์โหลดชุดข้อมูลจาก https://summari.es/download/ หน้าเว็บจำเป็นต้องลงทะเบียน หลังจากดาวน์โหลดแล้ว โปรดใส่ไฟล์ dev.jsonl, test.jsonl และ train.jsonl ลงใน manual_dir

  • ออโต้แคช ( เอกสาร ): ไม่ทราบ

  • แยก:

แยก ตัวอย่าง
'test' 108,862
'train' 995,041
'validation' 108,837
  • คุณสมบัติ:
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • อ้างอิง:
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}