media_sum

  • תיאור :

מערך הראיונות במדיה בקנה מידה גדול זה מכיל 463.6K תמלילים עם סיכומים מופשטים, שנאספו מתמלולי ראיונות ותיאורי סקירה/נושאים מ-NPR ו-CNN.

אנא הגבל את השימוש שלך במערך נתונים זה למטרות מחקר בלבד.

ובבקשה לצטט את המאמר שלנו: MediaSum: מערך נתונים של ראיון מדיה בקנה מידה גדול לסיכום דיאלוג

אֶתִיקָה

השתמשנו רק בנתוני התמלילים הזמינים לציבור ממקורות המדיה ודבקנו בהנחיות שלהם למטרות מחקר בלבד.

מכיוון שלתקשורת ולאורחים יש דעות מוטות, סביר להניח שהתמלילים והסיכומים יכללו אותן. תוכן התמלילים והסיכומים משקפים רק את דעות התקשורת והאורחים, ויש לראות אותם בשיקול דעת.

  • דף הבית : https://github.com/zcgzcgzcg1/MediaSum

  • קוד מקור : tfds.summarization.media_sum.MediaSum

  • גרסאות :

    • 1.0.0 (ברירת מחדל): שחרור ראשוני.
  • גודל הורדה : Unknown size

  • גודל מערך נתונים : 4.11 GiB

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir צריך להכיל את הקבצים:

    • news_dialogue.json
    • train_val_test_split.json

ניתן להוריד ולחלץ את הקבצים מדף GitHub של מערך הנתונים: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • שמור אוטומטי במטמון ( תיעוד ): לא

  • פיצולים :

לְפַצֵל דוגמאות
'test' 10,000
'train' 443,596
'val' 10,000
  • מבנה תכונה :
FeaturesDict({
    'date': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'program': Text(shape=(), dtype=tf.string),
    'speaker': Sequence(Text(shape=(), dtype=tf.string)),
    'summary': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
    'utt': Sequence(Text(shape=(), dtype=tf.string)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תַאֲרִיך טֶקסט tf.string
תְעוּדַת זֶהוּת טֶקסט tf.string
תכנית טֶקסט tf.string
רַמקוֹל רצף (טקסט) (אף אחד,) tf.string
סיכום טֶקסט tf.string
כתובת אתר טֶקסט tf.string
utt רצף (טקסט) (אף אחד,) tf.string
  • ציטוט :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}