- תיאור :
מערך נתונים של SummScreen Summarization, גרסה לא אנונימית, ללא אסימון.
פיצולי רכבת/ערך/בדיקה וסינון מבוססים על מערך הנתונים הסופי האסימון, אך התמלילים והתקצירים המסופקים מבוססים על הטקסט הלא מאוזן.
ישנן שתי תכונות:
- תמלול: תמלול פרק מלא, כל שורת דיאלוג מופרדת בשורות חדשות
תקציר: תקצירים או סיכומים של פרקים
דף הבית : https://github.com/mingdachen/SummScreen
קוד מקור :
tfds.datasets.summscreen.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
841.27 MiB
מפתחות בפיקוח (ראה
as_supervised
doc ):('transcript', 'recap')
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@article{DBLP:journals/corr/abs-2104-07091,
author = {Mingda Chen and
Zewei Chu and
Sam Wiseman and
Kevin Gimpel},
title = {SummScreen: {A} Dataset for Abstractive Screenplay Summarization},
journal = {CoRR},
volume = {abs/2104.07091},
year = {2021},
url = {https://arxiv.org/abs/2104.07091},
archivePrefix = {arXiv},
eprint = {2104.07091},
timestamp = {Mon, 19 Apr 2021 16:45:47 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2104-07091.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
summscreen/fd (תצורת ברירת המחדל)
תיאור תצורה : ForeverDreaming
גודל ערכת נתונים:
132.99 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 337 |
'train' | 3,673 |
'validation' | 338 |
- מבנה תכונה :
FeaturesDict({
'episode_number': Text(shape=(), dtype=string),
'episode_title': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
פרק_מספר | טֶקסט | חוּט | ||
פרק_כותרת | טֶקסט | חוּט | ||
לסכם | טֶקסט | חוּט | ||
הראה כותרת | טֶקסט | חוּט | ||
תמליל | טֶקסט | חוּט | ||
תמליל_מחבר | טֶקסט | חוּט |
- דוגמאות ( tfds.as_dataframe ):
summscreen/tms
תיאור תצורה : TVMegaSite
גודל ערכת נתונים:
592.53 MiB
שמירה אוטומטית במטמון ( תיעוד ): לא
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 1,793 |
'train' | 18,915 |
'validation' | 1,795 |
- מבנה תכונה :
FeaturesDict({
'episode_summary': Text(shape=(), dtype=string),
'recap': Text(shape=(), dtype=string),
'recap_author': Text(shape=(), dtype=string),
'show_title': Text(shape=(), dtype=string),
'transcript': Text(shape=(), dtype=string),
'transcript_author': Tensor(shape=(None,), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
פרק_סיכום | טֶקסט | חוּט | ||
לסכם | טֶקסט | חוּט | ||
recap_author | טֶקסט | חוּט | ||
הראה כותרת | טֶקסט | חוּט | ||
תמליל | טֶקסט | חוּט | ||
תמליל_מחבר | מוֹתֵחַ | (אף אחד,) | חוּט |
- דוגמאות ( tfds.as_dataframe ):