pg19

  • 説明

このデータセットには、PG-19言語モデリングベンチマークが含まれています。これは、プロジェクト・グーテンベルクの本プロジェクト(から抽出された図書のセットが含まhttps://www.gutenberg.orgまた、本のタイトルと出版日のメタデータを含む1919年前に出版されました)、。 PG-19は、Billion Wordベンチマークの2倍以上のサイズであり、WikiTextの長距離言語モデリングベンチマークよりも平均して20倍長いドキュメントが含まれています。

書籍は、トレイン、検証、およびテストセットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link)を含むmetadata.csvに保存されます。

  • ホームページhttps://github.com/deepmind/pg19

  • ソースコードtfds.text.Pg19

  • バージョン

    • 0.1.1 (デフォルト):リリースノート。
  • ダウンロードサイズUnknown size

  • データセットサイズ10.94 GiB

  • オートキャッシュされたドキュメント):いいえ

  • スプリット

スプリット
'test' 100
'train' 28,602
'validation' 50
  • 特長
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • 引用
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}