pg19

  • 説明:

このデータセットには、PG-19 言語モデリング ベンチマークが含まれています。プロジェクト グーテンベルク ブック プロジェクト ( https://www.gutenberg.org ) から抽出された、1919 年より前に発行された書籍のセットが含まれています。書籍のタイトルと発行日のメタデータも含まれています。 PG-19 は、Billion Word ベンチマークの 2 倍以上のサイズであり、WikiText 長距離言語モデリング ベンチマークよりも平均で 20 倍長いドキュメントが含まれています。

ブックは、トレーニング、検証、およびテスト セットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link) を含む metadata.csv に保存されます。

スプリット
'test' 100
'train' 28,602
'validation' 50
  • 機能構造:
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
book_idテンソルint32
book_linkテンソルストリング
book_text文章ストリング
book_titleテンソルストリング
出版日テンソルストリング
  • 引用
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}
,

  • 説明:

このデータセットには、PG-19 言語モデリング ベンチマークが含まれています。プロジェクト グーテンベルク ブック プロジェクト ( https://www.gutenberg.org ) から抽出された、1919 年より前に発行された書籍のセットが含まれています。書籍のタイトルと発行日のメタデータも含まれています。 PG-19 は、Billion Word ベンチマークの 2 倍以上のサイズであり、WikiText 長距離言語モデリング ベンチマークよりも平均で 20 倍長いドキュメントが含まれています。

ブックは、トレーニング、検証、およびテスト セットに分割されます。書籍のメタデータは、(book_id、short_book_title、publication_date、book_link) を含む metadata.csv に保存されます。

スプリット
'test' 100
'train' 28,602
'validation' 50
  • 機能構造:
FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
book_idテンソルint32
book_linkテンソルストリング
book_text文章ストリング
book_titleテンソルストリング
出版日テンソルストリング
  • 引用
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}