pg19

  • Mô tả :

Bộ dữ liệu này chứa tiêu chuẩn mô hình hóa ngôn ngữ PG-19. Nó bao gồm một bộ sách được trích xuất từ ​​dự án sách Project Gutenberg ( https://www.gutenberg.org ), được xuất bản trước năm 1919. Nó cũng chứa siêu dữ liệu về tên sách và ngày xuất bản. PG-19 có kích thước lớn hơn gấp đôi so với tiêu chuẩn Billion Word và chứa các tài liệu dài hơn trung bình 20 lần so với tiêu chuẩn mô hình hóa ngôn ngữ tầm xa của WikiText.

Sách được phân vùng thành một bộ đào tạo, xác nhận và kiểm tra. Siêu dữ liệu sách được lưu trữ trong metadata.csv chứa (book_id, short_book_title,publish_date, book_link).

Tách ra ví dụ
'test' 100
'train' 28,602
'validation' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
book_id tenxơ int32
sách_link tenxơ sợi dây
sách_văn bản Chữ sợi dây
tên sách tenxơ sợi dây
xuất bản_ngày tenxơ sợi dây
  • trích dẫn :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • Mô tả :

Bộ dữ liệu này chứa tiêu chuẩn mô hình hóa ngôn ngữ PG-19. Nó bao gồm một bộ sách được trích xuất từ ​​dự án sách Project Gutenberg ( https://www.gutenberg.org ), được xuất bản trước năm 1919. Nó cũng chứa siêu dữ liệu về tên sách và ngày xuất bản. PG-19 có kích thước lớn hơn gấp đôi so với tiêu chuẩn Billion Word và chứa các tài liệu dài hơn trung bình 20 lần so với tiêu chuẩn mô hình hóa ngôn ngữ tầm xa của WikiText.

Sách được phân vùng thành một bộ đào tạo, xác nhận và kiểm tra. Siêu dữ liệu sách được lưu trữ trong metadata.csv chứa (book_id, short_book_title,publish_date, book_link).

Tách ra ví dụ
'test' 100
'train' 28,602
'validation' 50
  • Cấu trúc tính năng :
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
book_id tenxơ int32
sách_link tenxơ sợi dây
sách_văn bản Chữ sợi dây
tên sách tenxơ sợi dây
xuất bản_ngày tenxơ sợi dây
  • trích dẫn :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}