एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

बड़ा पेटेंट

  • विवरण:

बिगपेटेंट, जिसमें मानव लिखित अमूर्त सारांश के साथ अमेरिकी पेटेंट दस्तावेजों के 1.3 मिलियन रिकॉर्ड शामिल हैं। प्रत्येक अमेरिकी पेटेंट आवेदन एक सहकारी पेटेंट वर्गीकरण (सीपीसी) कोड के तहत दायर किया जाता है। ऐसी नौ वर्गीकरण श्रेणियां हैं: ए (मानव आवश्यकताएं), बी (प्रदर्शन संचालन; परिवहन), सी (रसायन विज्ञान; धातुकर्म), डी (वस्त्र; कागज), ई (फिक्स्ड कंस्ट्रक्शन), एफ (मैकेनिकल इंजीनियरिंग; बिजली; ताप; हथियार; ब्लास्टिंग), जी (भौतिकी), एच (विद्युत), और वाई (नई या क्रॉस-अनुभागीय प्रौद्योगिकी की सामान्य टैगिंग)

दो विशेषताएं हैं: - विवरण: पेटेंट का विस्तृत विवरण। - सारांश: पेटेंट सार।

  • होमपेज: https://evasharma.github.io/bigpatent/

  • स्रोत कोड: tfds.summarization.BigPatent

  • संस्करण:

    • 1.0.0 : कम मामलों tokenized शब्द
    • 2.0.0 : अद्यतन मामलों कच्चे तार का उपयोग करने के
    • 2.1.2 (डिफ़ॉल्ट): मामलों कच्चे तार को ठीक करें अद्यतन।
  • डाउनलोड का आकार: 9.45 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विशेषताएं:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'description': Text(shape=(), dtype=tf.string),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('description', 'abstract')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@misc{sharma2019bigpatent,
    title={BIGPATENT: A Large-Scale Dataset for Abstractive and Coherent Summarization},
    author={Eva Sharma and Chen Li and Lu Wang},
    year={2019},
    eprint={1906.03741},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

big_patent/all (डिफ़ॉल्ट कॉन्फ़िग)

  • कॉन्फ़िग विवरण: सभी श्रेणियों के तहत पेटेंट।

  • डेटासेट का आकार: 35.17 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 67,072
'train' 1,207,222
'validation' ६७,०६८

बड़ा_पेटेंट/ए

  • कॉन्फ़िग विवरण: मानव नेसेसिटीज़: सहकारी पेटेंट वर्गीकरण (सीपीसी) एक के तहत पेटेंट

  • डेटासेट का आकार: 5.16 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 9,675
'train' १७४,१३४
'validation' 9,674

बिग_पेटेंट/बी

  • कॉन्फ़िग विवरण: सहकारी पेटेंट वर्गीकरण (सीपीसी) ख के तहत पेटेंट: प्रदर्शन संचालन; परिवहन

  • डेटासेट का आकार: 4.06 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 8,974
'train' १६१,५२०
'validation' 8,973

बिग_पेटेंट/सी

  • कॉन्फ़िग विवरण: सहकारी पेटेंट वर्गीकरण (सीपीसी) सी के तहत पेटेंट: रसायन विज्ञान; धातुकर्म

  • डेटासेट का आकार: 3.63 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 5,614
'train' 101,042
'validation' 5,613

बिग_पेटेंट/डी

  • कॉन्फ़िग विवरण: सहकारी पेटेंट वर्गीकरण (सीपीसी) घ के तहत पेटेंट: कपड़ा; कागज़

  • डेटासेट का आकार: 255.56 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 565
'train' १०,१६४
'validation' 565

बिग_पेटेंट/ई

  • कॉन्फ़िग विवरण: फिक्स्ड कंस्ट्रक्शन: सहकारी पेटेंट वर्गीकरण (सीपीसी) ई के तहत पेटेंट

  • डेटासेट का आकार: 871.40 MiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 1,914
'train' 34,443
'validation' 1,914

बिग_पेटेंट/एफ

  • कॉन्फ़िग विवरण: सहकारी पेटेंट वर्गीकरण (सीपीसी) च के तहत पेटेंट: मैकेनिकल इंजीनियरिंग; आकाशीय बिजली; गरम करना; हथियार, शस्त्र; नष्ट

  • डेटासेट का आकार: 2.06 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 4,754
'train' 85,568
'validation' 4,754

बिग_पेटेंट/जी

  • कॉन्फ़िग विवरण: भौतिकी: सहकारी पेटेंट वर्गीकरण (सीपीसी) जी के तहत पेटेंट

  • डेटासेट का आकार: 8.19 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' १४,३८६
'train' २५८,९३५
'validation' १४,३८५

बिग_पेटेंट/एच

  • कॉन्फ़िग विवरण: सहकारी पेटेंट वर्गीकरण (सीपीसी) ज के तहत पेटेंट: विद्युत

  • डेटासेट का आकार: 7.50 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' १४,२७९
'train' २५७,०१९
'validation' 14,279

बिग_पेटेंट/वाई

  • कॉन्फ़िग विवरण: सहकारी पेटेंट वर्गीकरण (सीपीसी) y के तहत पेटेंट: नए या पार अनुभागीय प्रौद्योगिकी के जनरल टैगिंग

  • डेटासेट का आकार: 3.46 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 6,911
'train' 124,397
'validation' 6,911