¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

pg19

  • Descripción:

Este conjunto de datos contiene el punto de referencia de modelado de lenguaje PG-19. Incluye un conjunto de libros extraídos del proyecto Proyecto Gutenberg libros ( https://www.gutenberg.org ), que fueron publicados antes de 1919. También contiene metadatos de títulos de libros y las fechas de publicación. PG-19 es más del doble del tamaño del punto de referencia de mil millones de palabras y contiene documentos que son 20 veces más largos, en promedio, que el punto de referencia de modelado de lenguaje de largo alcance de WikiText.

Los libros se dividen en un tren, una validación y un conjunto de pruebas. Los metadatos de los libros se almacenan en metadata.csv que contiene (book_id, short_book_title, publicación_date, book_link).

Separar Ejemplos de
'test' 100
'train' 28,602
'validation' 50
  • características:
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • Cita:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}