עמוד 19

  • תיאור :

מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים של Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו של מדד Billion Word ומכיל מסמכים ארוכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.

ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (מזהה_ספר, כותרת_ספר קצרה, תאריך_פרסום, קישור_ספר).

  • דף הבית : https://github.com/deepmind/pg19

  • קוד מקור : tfds.text.Pg19

  • גרסאות :

    • 0.1.1 (ברירת מחדל): אין הערות שחרור.
  • גודל הורדה : Unknown size

  • גודל מערך נתונים : 10.94 GiB

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 100
'train' 28,602
'validation' 50
  • תכונות :
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}