समस्क्रीन

  • विवरण :

SummScreen सारांश डेटासेट, गैर-अनामीकृत, गैर-टोकन संस्करण।

ट्रेन/वैल/टेस्ट स्प्लिट और फ़िल्टरिंग अंतिम टोकनयुक्त डेटासेट पर आधारित होते हैं, लेकिन प्रदान किए गए ट्रांसक्रिप्ट और रिकैप्स अनटोकेनाइज़्ड टेक्स्ट पर आधारित होते हैं।

दो विशेषताएं हैं:

  • प्रतिलेख: पूर्ण एपिसोड प्रतिलेख, संवाद की प्रत्येक पंक्ति को न्यूलाइन द्वारा अलग किया गया
  • रीकैप: एपिसोड का रीकैप या सारांश

  • होमपेज : https://github.com/mingdachen/SummScreen

  • स्रोत कोड : tfds.datasets.summscreen.Builder

  • संस्करण :

    • 1.0.0 (डिफ़ॉल्ट): प्रारंभिक रिलीज़।
  • डाउनलोड आकार : 841.27 MiB

  • पर्यवेक्षित कुंजियाँ ( as_supervised doc देखें): ('transcript', 'recap')

  • चित्र ( tfds.show_examples ): समर्थित नहीं है।

  • उद्धरण :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

समस्क्रीन/एफडी (डिफ़ॉल्ट कॉन्फ़िगरेशन)

  • कॉन्फिग विवरण : फॉरएवरड्रीमिंग

  • डेटासेट का आकार : 132.99 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): हाँ

  • विभाजन :

विभाजित करना उदाहरण
'test' 337
'train' 3,673
'validation' 338
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
प्रकरण क्रमांक लेख डोरी
प्रकरण_शीर्षक लेख डोरी
संक्षिप्त लेख डोरी
शीर्षक दिखाओ लेख डोरी
प्रतिलिपि लेख डोरी
transcript_author लेख डोरी

समस्क्रीन/टीएमएस

  • कॉन्फ़िग विवरण : TVMegaSite

  • डेटासेट का आकार : 592.53 MiB

  • ऑटो-कैश्ड ( दस्तावेज़ीकरण ): नहीं

  • विभाजन :

विभाजित करना उदाहरण
'test' 1,793
'train' 18,915
'validation' 1,795
  • फ़ीचर संरचना :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • फ़ीचर दस्तावेज़ीकरण :
विशेषता कक्षा आकार डीटाइप विवरण
विशेषताएं डिक्ट
episode_summary लेख डोरी
संक्षिप्त लेख डोरी
recap_author लेख डोरी
शीर्षक दिखाओ लेख डोरी
प्रतिलिपि लेख डोरी
transcript_author टेन्सर (कोई भी नहीं,) डोरी