एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

reddit_tifu

  • विवरण:

Reddit डेटासेट, जहाँ TIFU सबब्रेडिट /r/tifu के नाम को दर्शाता है। जैसा कि प्रकाशन में परिभाषित किया गया है, शैली "शॉर्ट" शीर्षक को सारांश के रूप में उपयोग करती है और "लॉन्ग" सारांश के रूप में tldr का उपयोग करती है।

सुविधाओं में शामिल हैं: - दस्तावेज़: tldr के बिना पाठ पोस्ट करें। - tldr: tldr लाइन। - शीर्षक: tldr के बिना ट्रिम किया गया शीर्षक। - अप: अपवोट्स। - स्कोर: स्कोर। - num_comments: टिप्पणियों की संख्या। - upvote_ratio: upvote अनुपात।

  • होमपेज: https://github.com/ctr4si/MMN

  • स्रोत कोड: tfds.summarization.RedditTifu

  • संस्करण:

    • 1.1.0 (डिफ़ॉल्ट): नहीं रिलीज नोट्स।
  • डाउनलोड का आकार: 639.54 MiB

  • डेटासेट का आकार: Unknown size

  • ऑटो-कैश ( प्रलेखन ): अज्ञात

  • विशेषताएं:

FeaturesDict({
    'documents': Text(shape=(), dtype=tf.string),
    'num_comments': tf.float32,
    'score': tf.float32,
    'title': Text(shape=(), dtype=tf.string),
    'tldr': Text(shape=(), dtype=tf.string),
    'ups': tf.float32,
    'upvote_ratio': tf.float32,
})
  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@misc{kim2018abstractive,
    title={Abstractive Summarization of Reddit Posts with Multi-level Memory Networks},
    author={Byeongchang Kim and Hyunwoo Kim and Gunhee Kim},
    year={2018},
    eprint={1811.00783},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

reddit_tifu/लघु (डिफ़ॉल्ट विन्यास)

  • कॉन्फ़िग विवरण: सारांश के रूप में शीर्षक का उपयोग करना।

  • विभाजन:

विभाजित करना उदाहरण
'train' 79,740

reddit_tifu/long

  • कॉन्फ़िग विवरण: TLDR सारांश के रूप में उपयोग करना।

  • विभाजन:

विभाजित करना उदाहरण
'train' 42,139