ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

วิทยาศาสตร์_papers

  • รายละเอียด:

ชุดข้อมูลเอกสารทางวิทยาศาสตร์ประกอบด้วยเอกสารแบบยาวและแบบมีโครงสร้างสองชุด ชุดข้อมูลได้มาจากที่เก็บ ArXiv และ PubMed OpenAccess

ทั้ง "arxiv" และ "pubmed" มีคุณสมบัติสองประการ:

  • บทความ: เนื้อหาของเอกสาร ย่อหน้าคั่นด้วย "/n"
  • บทคัดย่อ: บทคัดย่อของเอกสาร ย่อหน้าคั่นด้วย "/n"
  • section_names: ชื่อเรื่องของส่วน คั่นด้วย "/n"

  • โฮมเพจ: https://github.com/armancohan/long-summarization

  • รหัสที่มา: tfds.summarization.ScientificPapers

  • รุ่น:

    • 1.1.0 : ไม่มีบันทึกประจำรุ่น
    • 1.1.1 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: 4.20 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • คุณสมบัติ:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): ('article', 'abstract')

  • รูป ( tfds.show_examples ): ไม่ได้รับการสนับสนุน

  • อ้างอิง:

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

Scientific_papers/arxiv (การกำหนดค่าเริ่มต้น)

  • คำอธิบาย Config: เอกสารจากพื้นที่เก็บข้อมูล arXiv

  • ขนาดชุด: 7.07 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,440
'train' 203,037
'validation' 6,436

Scientific_papers/pubmed

  • คำอธิบาย Config: เอกสารจากพื้นที่เก็บข้อมูล PubMed

  • ขนาดชุด: 2.34 GiB

  • แยก:

แยก ตัวอย่าง
'test' 6,658
'train' 119,924
'validation' 6,633