หน้า19

  • คำอธิบาย :

ชุดข้อมูลนี้มีเกณฑ์มาตรฐานการสร้างแบบจำลองภาษา PG-19 ประกอบด้วยชุดหนังสือที่ดึงมาจากโครงการหนังสือ Project Gutenberg ( https://www.gutenberg.org ) ซึ่งจัดพิมพ์ก่อนปี 1919 นอกจากนี้ยังมีข้อมูลเมตาของชื่อหนังสือและวันที่ตีพิมพ์ PG-19 มีขนาดใหญ่เป็นสองเท่าของเกณฑ์มาตรฐาน Billion Word และมีเอกสารที่ยาวกว่าเกณฑ์มาตรฐานการสร้างแบบจำลองภาษาระยะยาวของ WikiText โดยเฉลี่ย 20 เท่า

หนังสือถูกแบ่งเป็นรถไฟ การตรวจสอบ และชุดการทดสอบ ข้อมูลเมตาของหนังสือถูกจัดเก็บไว้ใน metadata.csv ซึ่งมี (book_id, short_book_title, publication_date, book_link)

แยก ตัวอย่าง
'test' 100
'train' 28,602
'validation' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
book_id เทนเซอร์ int32
book_link เทนเซอร์ สตริง
book_text ข้อความ สตริง
ชื่อหนังสือ เทนเซอร์ สตริง
สิ่งพิมพ์_วันที่ เทนเซอร์ สตริง
  • การอ้างอิง :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • คำอธิบาย :

ชุดข้อมูลนี้มีเกณฑ์มาตรฐานการสร้างแบบจำลองภาษา PG-19 ประกอบด้วยชุดหนังสือที่ดึงมาจากโครงการหนังสือ Project Gutenberg ( https://www.gutenberg.org ) ซึ่งจัดพิมพ์ก่อนปี 1919 นอกจากนี้ยังมีข้อมูลเมตาของชื่อหนังสือและวันที่ตีพิมพ์ PG-19 มีขนาดใหญ่เป็นสองเท่าของเกณฑ์มาตรฐาน Billion Word และมีเอกสารที่ยาวกว่าเกณฑ์มาตรฐานการสร้างแบบจำลองภาษาระยะยาวของ WikiText โดยเฉลี่ย 20 เท่า

หนังสือถูกแบ่งเป็นรถไฟ การตรวจสอบ และชุดการทดสอบ ข้อมูลเมตาของหนังสือถูกจัดเก็บไว้ใน metadata.csv ซึ่งมี (book_id, short_book_title, publication_date, book_link)

แยก ตัวอย่าง
'test' 100
'train' 28,602
'validation' 50
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
book_id เทนเซอร์ int32
book_link เทนเซอร์ สตริง
book_text ข้อความ สตริง
ชื่อหนังสือ เทนเซอร์ สตริง
สิ่งพิมพ์_วันที่ เทนเซอร์ สตริง
  • การอ้างอิง :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}