एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

xsum

  • विवरण:

चरम सारांश (XSum) डेटासेट।

दो विशेषताएं हैं: - दस्तावेज़: इनपुट समाचार लेख। - सारांश: लेख का एक वाक्य सारांश।

इस डेटा की जरूरत manaully डाउनलोड किया है और निकाले करने में वर्णित के रूप https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md के रूप में संकुचित करने की फ़ोल्डर 'xsum-अर्क-से-डाउनलोड' की जरूरत 'xsum-extracts-from-downloads.tar.gz' और मैन्युअल रूप से डाउनलोड किए गए फ़ोल्डर में डाल दें।

  • होमपेज: https://github.com/EdinburghNLP/XSum/tree/master/XSum-Dataset

  • स्रोत कोड: tfds.summarization.Xsum

  • संस्करण:

    • 1.0.0 : सफाई के बिना डेटासेट।
    • 1.1.0 (डिफ़ॉल्ट): निकालता वेब सामग्री।
  • डाउनलोड का आकार: 2.59 MiB

  • डेटासेट का आकार: Unknown size

  • मैनुअल डाउनलोड के निर्देश: यह डेटासेट आप में मैन्युअल रूप से स्रोत डेटा डाउनलोड करने के लिए की आवश्यकता है download_config.manual_dir (करने के लिए डिफ़ॉल्ट ~/tensorflow_datasets/downloads/manual/ ):
    : विस्तृत डाउनलोड निर्देश (जो एक कस्टम स्क्रिप्ट चलाने की आवश्यकता होती है) यहाँ हैं https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md#running-the-download-and-extraction-scripts बाद में , कृपया मैन्युअल_दिर में xsum-extracts-from-downloads.tar.gz फ़ाइल डालें।

  • ऑटो-कैश ( प्रलेखन ): अज्ञात

  • विभाजन:

विभाजित करना उदाहरण
'test' 11,301
'train' 203,577
'validation' 11,305
  • विशेषताएं:
FeaturesDict({
    'document': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}