pg19

توضیحات :

این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این شامل مجموعه‌ای از کتاب‌های استخراج‌شده از پروژه کتاب‌های پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شده‌اند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. PG-19 بیش از دو برابر اندازه معیار Billion Word است و حاوی اسنادی است که به طور متوسط 20 برابر طولانی تر از معیار مدل سازی زبان برد بلند WikiText هستند.

کتاب ها به یک مجموعه قطار، اعتبار سنجی و تست تقسیم می شوند. فراداده کتاب‌ها در metadata.csv ذخیره می‌شود که حاوی (book_id، short_book_title، publication_date، book_link) است.

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/deepmind/pg19
کد منبع : tfds.datasets.pg19.Builder
نسخه ها :
- 0.1.1 (پیش فرض): بدون یادداشت انتشار.
اندازه دانلود : Unknown size
حجم مجموعه داده : 10.94 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	100
`'train'`	28602
`'validation'`	50

ساختار ویژگی :

FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
book_id	تانسور	int32
پیوند_کتاب	تانسور	رشته
کتاب_متن	متن	رشته
عنوان کتاب	تانسور	رشته
تاریخ انتشار	تانسور	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}

توضیحات :

اسناد اضافی : کاوش در کاغذها با کد
صفحه اصلی : https://github.com/deepmind/pg19
کد منبع : tfds.datasets.pg19.Builder
نسخه ها :
- 0.1.1 (پیش فرض): بدون یادداشت انتشار.
اندازه دانلود : Unknown size
حجم مجموعه داده : 10.94 GiB
ذخیره خودکار ( اسناد ): خیر
تقسیم ها :

شکاف	مثال ها
`'test'`	100
`'train'`	28602
`'validation'`	50

ساختار ویژگی :

FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})

مستندات ویژگی :

ویژگی	کلاس	نوع D
	FeaturesDict
book_id	تانسور	int32
پیوند_کتاب	تانسور	رشته
کتاب_متن	متن	رشته
عنوان کتاب	تانسور	رشته
تاریخ انتشار	تانسور	رشته

کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثال‌ها ( tfds.as_dataframe ):

نقل قول :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}