एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

वैज्ञानिक पत्र

  • विवरण:

वैज्ञानिक पेपर डेटासेट में लंबे और संरचित दस्तावेज़ों के दो सेट होते हैं। डेटासेट ArXiv और PubMed OpenAccess रिपॉजिटरी से प्राप्त किए जाते हैं।

"arxiv" और "pubmed" दोनों में दो विशेषताएं हैं:

  • लेख: दस्तावेज़ का मुख्य भाग, "/ n" से अलग किए गए पैराग्राफ़।
  • सार: दस्तावेज़ का सार, "/ n" द्वारा अलग किए गए पैराग्राफ।
  • section_names: अनुभागों के शीर्षक, "/ n" द्वारा अलग किए गए।

  • होमपेज: https://github.com/armancohan/long-summarization

  • स्रोत कोड: tfds.summarization.ScientificPapers

  • संस्करण:

    • 1.1.0 : नहीं रिलीज नोट्स।
    • 1.1.1 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 4.20 GiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विशेषताएं:

FeaturesDict({
    'abstract': Text(shape=(), dtype=tf.string),
    'article': Text(shape=(), dtype=tf.string),
    'section_names': Text(shape=(), dtype=tf.string),
})
  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('article', 'abstract')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@article{Cohan_2018,
   title={A Discourse-Aware Attention Model for Abstractive Summarization of
            Long Documents},
   url={http://dx.doi.org/10.18653/v1/n18-2097},
   DOI={10.18653/v1/n18-2097},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 2 (Short Papers)},
   publisher={Association for Computational Linguistics},
   author={Cohan, Arman and Dernoncourt, Franck and Kim, Doo Soon and Bui, Trung and Kim, Seokhwan and Chang, Walter and Goharian, Nazli},
   year={2018}
}

साइंटिफिक_पेपर्स/आर्क्सिव (डिफ़ॉल्ट कॉन्फिग)

  • कॉन्फ़िग विवरण: arXiv रिपोजिटरी से दस्तावेज़।

  • डेटासेट का आकार: 7.07 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 6,440
'train' 203,037
'validation' 6,436

साइंटिफिक_पेपर्स/पबमेड

  • कॉन्फ़िग विवरण: PubMed रिपोजिटरी से दस्तावेज़।

  • डेटासेट का आकार: 2.34 GiB

  • विभाजन:

विभाजित करना उदाहरण
'test' 6,658
'train' 119,924
'validation' 6,633