لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

الصفحة 19

  • الوصف :

تحتوي مجموعة البيانات هذه على معيار PG-19 لنمذجة اللغة. وهو يتضمن مجموعة من الكتب المستخرجة من مشروع كتب Project Gutenberg ( https://www.gutenberg.org ) والتي تم نشرها قبل عام 1919. كما تحتوي على بيانات وصفية لعناوين الكتب وتواريخ النشر. يتجاوز حجم PG-19 ضعف حجم معيار Billion Word ويحتوي على مستندات أطول بمقدار 20 مرة ، في المتوسط ​​، من معيار WikiText لنمذجة اللغة طويلة المدى.

يتم تقسيم الكتب إلى مجموعة قطار والتحقق من الصحة والاختبار. يتم تخزين البيانات الوصفية للكتب في metadata.csv الذي يحتوي على (book_id ، short_book_title ، تاريخ النشر ، رابط_الكتب).

  • الصفحة الرئيسية : https://github.com/deepmind/pg19

  • كود المصدر : tfds.text.Pg19

  • إصدارات :

    • 0.1.1 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 10.94 GiB

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 100
'train' 28602
'validation' 50
  • الميزات :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • الاقتباس :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}