एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

पीजी19

  • विवरण:

इस डेटासेट में PG-19 भाषा मॉडलिंग बेंचमार्क है। यह प्रोजेक्ट गुटेनबर्ग किताबें परियोजना (से निकाली गई पुस्तकों का एक सेट शामिल https://www.gutenberg.org ), कि 1919 से पहले प्रकाशित किए गए थे यह भी पुस्तक शीर्षक और प्रकाशन तिथियों के मेटाडाटा शामिल हैं। PG-19 बिलियन वर्ड बेंचमार्क के आकार से दोगुने से अधिक है और इसमें विकीटेक्स्ट लंबी दूरी की भाषा मॉडलिंग बेंचमार्क की तुलना में औसतन 20X लंबे दस्तावेज़ शामिल हैं।

पुस्तकों को एक ट्रेन, सत्यापन और परीक्षण सेट में विभाजित किया जाता है। पुस्तकों का मेटाडेटा मेटाडेटा.सीएसवी में संग्रहीत होता है जिसमें (book_id, short_book_title, Publication_date, book_link) शामिल होता है।

  • होमपेज: https://github.com/deepmind/pg19

  • स्रोत कोड: tfds.text.Pg19

  • संस्करण:

    • 0.1.1 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: Unknown size

  • डेटासेट का आकार: 10.94 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 100
'train' 28,602
'validation' 50
  • विशेषताएं:
FeaturesDict({
    'book_id': tf.int32,
    'book_link': tf.string,
    'book_text': Text(shape=(), dtype=tf.string),
    'book_title': tf.string,
    'publication_date': tf.string,
})
  • प्रशस्ति पत्र:
@article{raecompressive2019,
author = {Rae, Jack W and Potapenko, Anna and Jayakumar, Siddhant M and
          Hillier, Chloe and Lillicrap, Timothy P},
title = {Compressive Transformers for Long-Range Sequence Modelling},
journal = {arXiv preprint},
url = {https://arxiv.org/abs/1911.05507},
year = {2019},
}