ช่วยปกป้อง Great Barrier Reef กับ TensorFlow บน Kaggle เข้าร่วมท้าทาย

หน้า19

  • รายละเอียด:

ชุดข้อมูลนี้มีเกณฑ์มาตรฐานการสร้างแบบจำลองภาษา PG-19 ซึ่งจะรวมถึงชุดของหนังสือที่สกัดจากโครงการ Gutenberg หนังสือโครงการ ( https://www.gutenberg.org ) ที่ได้รับการตีพิมพ์ก่อนปี 1919 นอกจากนี้ยังมีข้อมูลเมตาของชื่อหนังสือและวันที่เผยแพร่ PG-19 มีขนาดใหญ่กว่าเกณฑ์มาตรฐานพันล้านคำมากกว่าสองเท่า และมีเอกสารที่ยาวโดยเฉลี่ย 20 เท่า เมื่อเทียบกับเกณฑ์มาตรฐานการสร้างแบบจำลองภาษาระยะยาว WikiText

หนังสือถูกแบ่งออกเป็นรถไฟ การตรวจสอบ และชุดทดสอบ ข้อมูลเมตาของหนังสือถูกเก็บไว้ใน metadata.csv ซึ่งมี (book_id, short_book_title, สิ่งพิมพ์_date, book_link)

  • โฮมเพจ: https://github.com/deepmind/pg19

  • รหัสที่มา: tfds.text.Pg19

  • รุ่น:

    • 0.1.1 (เริ่มต้น): ไม่มีบันทึกประจำรุ่น
  • ขนาดการดาวน์โหลด: Unknown size

  • ขนาดชุด: 10.94 GiB

  • ออโต้แคช ( เอกสาร ): ไม่มี

  • แยก:

แยก ตัวอย่าง
'test' 100
'train' 28,602
'validation' 50
  • คุณสมบัติ:
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • อ้างอิง:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}