امروز برای رویداد محلی TensorFlow خود در همه جا پاسخ دهید!
این صفحه به‌وسیله ‏Cloud Translation API‏ ترجمه شده است.
Switch to English

صفحه 19

  • توضیحات :

این مجموعه داده شامل معیار مدل سازی زبان PG-19 است. این کتاب شامل مجموعه ای از کتابهای استخراج شده از پروژه کتابهای پروژه گوتنبرگ ( https://www.gutenberg.org ) است که قبل از سال 1919 منتشر شده اند. همچنین حاوی فراداده عناوین کتاب و تاریخ انتشار است. اندازه PG-19 بیش از دو برابر معیار Billion Word است و شامل اسنادی است که به طور متوسط ​​20 برابر طولانی تر از معیار مدل سازی زبان دوربرد WikiText هستند.

کتابها به یک قطار ، اعتبار سنجی و مجموعه آزمون تقسیم می شوند. فراداده کتابها در metadata.csv ذخیره می شود که حاوی (عنوان_کتاب ، عنوان_کتاب کوتاه ، تاریخ_ انتشار ، پیوند_کتاب) است

  • صفحه اصلی : https://github.com/deepmind/pg19

  • کد منبع : tfds.text.Pg19

  • نسخه ها :

    • 0.1.1 (پیش فرض): بدون یادداشت انتشار.
  • اندازه بارگیری : Unknown size

  • اندازه مجموعه داده : 10.94 GiB

  • ذخیره خودکار ( مستندات ): خیر

  • تقسیم :

شکاف مثال ها
'test' 100
'train' 28،602
'validation' 50
  • ویژگی ها :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • کلیدهای تحت نظارت (به as_supervised سند نظارت شده مراجعه کنید): None

  • نقل قول :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}