סמסום

  • תיאור :

SAMSum Corpus מכיל יותר מ-16,000 דיאלוגים של צ'אט עם סיכומים עם הערות ידנית.

ישנן שתי תכונות:

  • דיאלוג: טקסט של דיאלוג.
  • סיכום: סיכום כתוב אנושי של הדיאלוג.
  • id: id של דוגמה.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://arxiv.org/src/1911.12237v2/anc

  • קוד מקור : tfds.datasets.samsum.Builder

  • גרסאות :

    • 1.0.0 (ברירת מחדל): אין הערות שחרור.
  • גודל הורדה : Unknown size

  • גודל ערכת נתונים: 10.71 MiB

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    הורד את https://arxiv.org/src/1911.12237v2/anc/corpus.7z, שחרר את הדחיסה והצב את train.json, val.json ו-test.json בתיקייה הידנית.

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 819
'train' 14,732
'validation' 818
  • מבנה תכונה :
FeaturesDict({
    'dialogue': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
דו שיח טֶקסט חוּט
תְעוּדַת זֶהוּת טֶקסט חוּט
סיכום טֶקסט חוּט
  • ציטוט :
@article{gliwa2019samsum,
  title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
  author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
  journal={arXiv preprint arXiv:1911.12237},
  year={2019}
}