Эта страница была переведа с помощью Cloud Translation API.
Switch to English

pg19

  • Описание :

Этот набор данных содержит тест языкового моделирования PG-19. Он включает набор книг, извлеченных из книжного проекта Project Gutenberg ( https://www.gutenberg.org ), которые были опубликованы до 1919 года. Он также содержит метаданные названий книг и дат публикации. PG-19 более чем вдвое превышает размер теста Billion Word и содержит документы, которые в среднем в 20 раз длиннее, чем тест WikiText для моделирования языка дальнего действия.

Книги разделены на набор для обучения, проверки и тестирования. Метаданные книг хранятся в metadata.csv, который содержит (book_id, short_book_title, publishing_date, book_link).

  • Домашняя страница : https://github.com/deepmind/pg19

  • Исходный код : tfds.text.Pg19

  • Версии :

    • 0.1.1 (по умолчанию): без примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : 10.94 GiB

  • Автоматическое кэширование ( документация ): Нет

  • Сплит :

Трещина Примеры
'test' 100
'train' 28 602
'validation' 50
  • Особенности :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • Контролируемые ключи (см. as_supervised doc ): None

  • Цитата :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}