pg19

  • Açıklama :

Bu veri kümesi, PG-19 dil modelleme karşılaştırmasını içerir. 1919'dan önce yayınlanmış olan Project Gutenberg kitap projesinden ( https://www.gutenberg.org ) alınan bir dizi kitap içerir. Ayrıca kitap başlıkları ve yayın tarihlerinin meta verilerini de içerir. PG-19, Billion Word karşılaştırmasının iki katından daha büyük ve WikiText uzun menzilli dil modelleme kıyaslamasından ortalama olarak 20 kat daha uzun belgeler içeriyor.

Kitaplar bir tren, doğrulama ve test setine bölünür. Kitap meta verileri, (book_id, short_book_title, yayın_tarihi, book_link) içeren metadata.csv dosyasında depolanır.

Bölmek Örnekler
'test' 100
'train' 28,602
'validation' 50
  • Özellikler :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • alıntı :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}