- תיאור :
מערך נתונים זה מכיל את מדד המודלים של השפה PG-19. הוא כולל קבוצה של ספרים שהופקו מפרויקט הספרים של Project Gutenberg ( https://www.gutenberg.org ), שפורסמו לפני 1919. הוא מכיל גם מטא נתונים של כותרות ספרים ותאריכי פרסום. PG-19 הוא יותר מגודלו של מדד Billion Word ומכיל מסמכים ארוכים פי 20, בממוצע, ממדד המודלים לטווח ארוך של שפות WikiText.
ספרים מחולקים למערכת רכבת, אימות ומבחן. מטא נתונים של ספרים מאוחסנים ב-metadata.csv שמכיל (מזהה_ספר, כותרת_ספר קצרה, תאריך_פרסום, קישור_ספר).
דף הבית : https://github.com/deepmind/pg19
קוד מקור :
tfds.text.Pg19
גרסאות :
-
0.1.1
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
גודל מערך נתונים :
10.94 GiB
שמור אוטומטי במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 100 |
'train' | 28,602 |
'validation' | 50 |
- תכונות :
FeaturesDict({
'book_id': tf.int32,
'book_link': tf.string,
'book_text': Text(shape=(), dtype=tf.string),
'book_title': tf.string,
'publication_date': tf.string,
})
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}