एमएल समुदाय दिवस 9 नवंबर है! TensorFlow, JAX से नई जानकारी के लिए हमसे जुड़ें, और अधिक जानें

समस्क्रीन

  • विवरण:

सारांशस्क्रीन सारांश डेटासेट, गैर-अज्ञात, गैर-टोकन संस्करण।

ट्रेन/वैल/टेस्ट स्प्लिट्स और फ़िल्टरिंग अंतिम टोकनयुक्त डेटासेट पर आधारित होते हैं, लेकिन प्रदान किए गए ट्रांसक्रिप्ट और रीकैप्स असंकेतित टेक्स्ट पर आधारित होते हैं।

दो विशेषताएं हैं:

  • प्रतिलेख: पूर्ण एपिसोड प्रतिलेख, संवाद की प्रत्येक पंक्ति को न्यूलाइन द्वारा अलग किया गया
  • पुनर्कथन: एपिसोड के पुनर्कथन या सारांश

  • होमपेज: https://github.com/mingdachen/SummScreen

  • स्रोत कोड: tfds.summarization.summscreen.Summscreen

  • संस्करण:

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड का आकार: 841.27 MiB

  • पर्यवेक्षित कुंजियों (देखें as_supervised डॉक ): ('transcript', 'recap')

  • चित्रा ( tfds.show_examples ): समर्थित नहीं।

  • प्रशस्ति पत्र:

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

समस्क्रीन/एफडी (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फ़िग विवरण: ForeverDreaming

  • डेटासेट का आकार: 132.99 MiB

  • ऑटो-कैश ( प्रलेखन ): हाँ

  • विभाजन:

विभाजित करना उदाहरण
'test' 337
'train' 3,673
'validation' 338
  • विशेषताएं:
FeaturesDict({
    'episode_number': Text(shape=(), dtype=tf.string),
    'episode_title': Text(shape=(), dtype=tf.string),
    'recap': Text(shape=(), dtype=tf.string),
    'show_title': Text(shape=(), dtype=tf.string),
    'transcript': Text(shape=(), dtype=tf.string),
    'transcript_author': Text(shape=(), dtype=tf.string),
})

समस्क्रीन/टीएमएस

  • कॉन्फ़िग विवरण: TVMegaSite

  • डेटासेट का आकार: 592.53 MiB

  • ऑटो-कैश ( प्रलेखन ): नहीं

  • विभाजन:

विभाजित करना उदाहरण
'test' 1,793
'train' 18,915
'validation' 1,795
  • विशेषताएं:
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=tf.string),
    'recap': Text(shape=(), dtype=tf.string),
    'recap_author': Text(shape=(), dtype=tf.string),
    'show_title': Text(shape=(), dtype=tf.string),
    'transcript': Text(shape=(), dtype=tf.string),
    'transcript_author': Tensor(shape=(None,), dtype=tf.string),
})