- Açıklama :
Bu veri kümesi, PG-19 dil modelleme karşılaştırmasını içerir. 1919'dan önce yayınlanmış olan Project Gutenberg kitap projesinden ( https://www.gutenberg.org ) alınan bir dizi kitap içerir. Ayrıca kitap başlıkları ve yayın tarihlerinin meta verilerini de içerir. PG-19, Billion Word karşılaştırmasının iki katından daha büyük ve WikiText uzun menzilli dil modelleme kıyaslamasından ortalama olarak 20 kat daha uzun belgeler içeriyor.
Kitaplar bir tren, doğrulama ve test setine bölünür. Kitap meta verileri, (book_id, short_book_title, yayın_tarihi, book_link) içeren metadata.csv dosyasında depolanır.
Ana sayfa : https://github.com/deepmind/pg19
Kaynak kodu :
tfds.text.Pg19
Sürümler :
-
0.1.1
(varsayılan): Sürüm notu yok.
-
İndirme boyutu :
Unknown size
Veri kümesi boyutu :
10.94 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- Özellikler :
FeaturesDict({
'book_id': tf.int32,
'book_link': tf.string,
'book_text': Text(shape=(), dtype=tf.string),
'book_title': tf.string,
'publication_date': tf.string,
})
Denetimli anahtarlar (bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmez.
Örnekler ( tfds.as_dataframe ):
- alıntı :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}