पीजी19

विवरण :

इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क शामिल है। इसमें प्रोजेक्ट गुटेनबर्ग बुक्स प्रोजेक्ट ( https://www.gutenberg.org ) से निकाली गई पुस्तकों का एक सेट शामिल है, जो 1919 से पहले प्रकाशित हुई थीं। इसमें पुस्तक के शीर्षक और प्रकाशन तिथियों का मेटाडेटा भी शामिल है। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें ऐसे दस्तावेज़ शामिल हैं जो विकीटेक्स्ट लॉन्ग-रेंज लैंग्वेज मॉडलिंग बेंचमार्क की तुलना में औसतन 20 गुना लंबे हैं।

पुस्तकों को ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया गया है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, public_date, book_link) शामिल होता है।

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/deepmind/pg19
स्रोत कोड : tfds.datasets.pg19.Builder
संस्करण :
- 0.1.1 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
डाउनलोड आकार : Unknown size
डेटासेट का आकार : 10.94 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	100
`'train'`	28,602
`'validation'`	50

फ़ीचर संरचना :

FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
book_id	टेन्सर	int32
book_link	टेन्सर	डोरी
book_text	मूलपाठ	डोरी
पुस्तक का शीर्षक	टेन्सर	डोरी
प्रकाशन तिथि	टेन्सर	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}

विवरण :

अतिरिक्त दस्तावेज़ीकरण : कोड वाले पेपर्स पर एक्सप्लोर करें
होमपेज : https://github.com/deepmind/pg19
स्रोत कोड : tfds.datasets.pg19.Builder
संस्करण :
- 0.1.1 (डिफ़ॉल्ट): कोई रिलीज़ नोट नहीं।
डाउनलोड आकार : Unknown size
डेटासेट का आकार : 10.94 GiB
ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं
विभाजन :

विभाजित करना	उदाहरण
`'test'`	100
`'train'`	28,602
`'validation'`	50

फ़ीचर संरचना :

FeaturesDict({
    'book_id': int32,
    'book_link': string,
    'book_text': Text(shape=(), dtype=string),
    'book_title': string,
    'publication_date': string,
})

फ़ीचर दस्तावेज़ीकरण :

विशेषता	कक्षा	डीटाइप
	विशेषताएं डिक्ट
book_id	टेन्सर	int32
book_link	टेन्सर	डोरी
book_text	मूलपाठ	डोरी
पुस्तक का शीर्षक	टेन्सर	डोरी
प्रकाशन तिथि	टेन्सर	डोरी

पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): None
चित्र ( tfds.show_examples ): समर्थित नहीं है।
उदाहरण ( tfds.as_dataframe ):

उद्धरण :

@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}