- תיאור :
SAMSum Corpus מכיל יותר מ-16,000 דיאלוגים של צ'אט עם סיכומים עם הערות ידנית.
ישנן שתי תכונות:
- דיאלוג: טקסט של דיאלוג.
- סיכום: סיכום כתוב אנושי של הדיאלוג.
id: id של דוגמה.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://arxiv.org/src/1911.12237v2/anc
קוד מקור :
tfds.datasets.samsum.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
Unknown size
גודל ערכת נתונים:
10.71 MiB
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל
download_config.manual_dir
(ברירת המחדל היא~/tensorflow_datasets/downloads/manual/
):
הורד את https://arxiv.org/src/1911.12237v2/anc/corpus.7z, שחרר את הדחיסה והצב את train.json, val.json ו-test.json בתיקייה הידנית.שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 819 |
'train' | 14,732 |
'validation' | 818 |
- מבנה תכונה :
FeaturesDict({
'dialogue': Text(shape=(), dtype=string),
'id': Text(shape=(), dtype=string),
'summary': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
דו שיח | טֶקסט | חוּט | ||
תְעוּדַת זֶהוּת | טֶקסט | חוּט | ||
סיכום | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('dialogue', 'summary')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@article{gliwa2019samsum,
title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}