एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

SAMSUNG

  • विवरण:

सैमसम कॉर्पस में मैन्युअल रूप से एनोटेट किए गए सारांश के साथ 16k से अधिक चैट संवाद हैं।

दो विशेषताएं हैं:

  • संवाद: संवाद का पाठ।
  • सारांश: संवाद का मानव लिखित सारांश।
  • आईडी: एक उदाहरण की आईडी।

  • होमपेज: https://arxiv.org/src/1911.12237v2/anc

  • स्रोत कोड: tfds.summarization.Samsum

  • संस्करण:

    • 1.0.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: Unknown size

  • डेटासेट का आकार: 10.71 MiB

  • मैनुअल डाउनलोड के निर्देश: यह डेटासेट आप में मैन्युअल रूप से स्रोत डेटा डाउनलोड करने के लिए की आवश्यकता है download_config.manual_dir (करने के लिए डिफ़ॉल्ट ~/tensorflow_datasets/downloads/manual/ ):
    डाउनलोड https://arxiv.org/src/1911.12237v2/anc/corpus.7z, दबाव हटाना और जगह train.json, val.json और test.json मैनुअल follder में।

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 819
'train' १४,७३२
'validation' 818
  • विशेषताएं:
FeaturesDict({
    'dialogue': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
})
  • प्रशस्ति पत्र:
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}