xsum

  • विवरण :

एक्सट्रीम समराइज़ेशन (XSum) डेटासेट।

इसकी दो विशेषताएं हैं: - दस्तावेज़: इनपुट समाचार लेख। - सारांश: लेख का एक वाक्य सारांश।

https://github.com/EdinburghNLP/XSum/blob/master/XSum-Dataset/README.md फ़ोल्डर 'xsum-extracts-from-downloads' में वर्णित के अनुसार इस डेटा को मैन्युअल रूप से डाउनलोड और निकालने की आवश्यकता है। 'xsum-extracts-from-downloads.tar.gz' और मैन्युअल रूप से डाउनलोड किए गए फ़ोल्डर में डालें।

विभाजित करना उदाहरण
'test' 11,301
'train' 203,577
'validation' 11,305
  • फ़ीचर संरचना :
FeaturesDict({
    'document': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
दस्तावेज़ मूलपाठ डोरी
सारांश मूलपाठ डोरी
  • उद्धरण :
@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}