O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

pg19

  • Descrição:

Este conjunto de dados contém o benchmark de modelagem de linguagem PG-19. Ele inclui um conjunto de livros extraídos do projeto Projeto Gutenberg livros ( https://www.gutenberg.org ), que foram publicados antes de 1919. Ele também contém metadados de títulos de livros e datas de publicação. PG-19 tem mais do dobro do tamanho do benchmark Billion Word e contém documentos que são 20 vezes mais longos, em média, do que o benchmark de modelagem de linguagem de longo alcance WikiText.

Os livros são particionados em um conjunto de treinamento, validação e teste. Os metadados dos livros são armazenados em metadata.csv que contém (book_id, short_book_title, publication_date, book_link).

Dividir Exemplos
'test' 100
'train' 28.602
'validation' 50
  • Características:
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • citação:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}