Halaman ini diterjemahkan oleh Cloud Translation API.
Switch to English

hal19

  • Deskripsi :

Dataset ini berisi tolok ukur pemodelan bahasa PG-19. Ini mencakup satu set buku yang diambil dari proyek buku Proyek Gutenberg ( https://www.gutenberg.org ), yang diterbitkan sebelum 1919. Ini juga berisi metadata dari judul buku dan tanggal penerbitan. PG-19 lebih dari dua kali lipat ukuran tolok ukur Billion Word dan berisi dokumen yang rata-rata 20X lebih panjang daripada tolok ukur pemodelan bahasa jarak jauh WikiText.

Buku dipartisi menjadi rangkaian pelatihan, validasi, dan pengujian. Metadata buku disimpan dalam metadata.csv yang berisi (book_id, short_book_title, publish_date, book_link).

Membagi Contoh
'test' 100
'train' 28.602
'validation' 50
  • Fitur :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}