সামসস্ক্রিন

  • বর্ণনা :

SummScreen সংক্ষিপ্তকরণ ডেটাসেট, অ-বেনামী, অ-টোকেনাইজড সংস্করণ।

ট্রেন/ভাল/পরীক্ষা বিভাজন এবং ফিল্টারিং চূড়ান্ত টোকেনাইজড ডেটাসেটের উপর ভিত্তি করে, কিন্তু প্রদত্ত প্রতিলিপি এবং রিক্যাপগুলি অটোকেনাইজড পাঠ্যের উপর ভিত্তি করে।

দুটি বৈশিষ্ট্য আছে:

  • ট্রান্সক্রিপ্ট: সম্পূর্ণ পর্বের প্রতিলিপি, কথোপকথনের প্রতিটি লাইন নতুন লাইন দ্বারা পৃথক করা হয়েছে
  • recap: recaps বা পর্বের সারাংশ

  • হোমপেজ : https://github.com/mingdachen/SummScreen

  • সোর্স কোড : tfds.datasets.summscreen.Builder

  • সংস্করণ :

    • 1.0.0 (ডিফল্ট): প্রাথমিক প্রকাশ।
  • ডাউনলোড 841.27 MiB

  • তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): ('transcript', 'recap')

  • চিত্র ( tfds.show_examples ): সমর্থিত নয়।

  • উদ্ধৃতি :

@article{DBLP:journals/corr/abs-2104-07091,
  author    = {Mingda Chen and
               Zewei Chu and
               Sam Wiseman and
               Kevin Gimpel},
  title     = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
  journal   = {CoRR},
  volume    = {abs/2104.07091},
  year      = {2021},
  url       = {https://arxiv.org/abs/2104.07091},
  archivePrefix = {arXiv},
  eprint    = {2104.07091},
  timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

সামস্ক্রিন/এফডি (ডিফল্ট কনফিগারেশন)

  • কনফিগ বিবরণ : ForeverDreaming

  • ডেটাসেটের আকার : 132.99 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): হ্যাঁ

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 337
'train' ৩,৬৭৩
'validation' ৩৩৮
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_number': Text(shape=(), dtype=string),
    'episode_title': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Text(shape=(), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পর্ব_সংখ্যা পাঠ্য স্ট্রিং
episode_title পাঠ্য স্ট্রিং
সংকলন পাঠ্য স্ট্রিং
শিরোনাম দেখান পাঠ্য স্ট্রিং
প্রতিলিপি পাঠ্য স্ট্রিং
প্রতিলিপি_লেখক পাঠ্য স্ট্রিং

summscreen/tms

  • কনফিগ বিবরণ : TVMegaSite

  • ডেটাসেটের আকার : 592.53 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'test' 1,793
'train' 18,915
'validation' 1,795
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'episode_summary': Text(shape=(), dtype=string),
    'recap': Text(shape=(), dtype=string),
    'recap_author': Text(shape=(), dtype=string),
    'show_title': Text(shape=(), dtype=string),
    'transcript': Text(shape=(), dtype=string),
    'transcript_author': Tensor(shape=(None,), dtype=string),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
episode_summary পাঠ্য স্ট্রিং
সংকলন পাঠ্য স্ট্রিং
recap_author পাঠ্য স্ট্রিং
শিরোনাম দেখান পাঠ্য স্ট্রিং
প্রতিলিপি পাঠ্য স্ট্রিং
প্রতিলিপি_লেখক টেনসর (কোনটিই নয়,) স্ট্রিং