رسانه_جمع

 • توضیحات :

این مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ شامل 463.6 هزار رونوشت با خلاصه های انتزاعی است که از متن مصاحبه و شرح کلی / موضوع از NPR و CNN جمع آوری شده است.

لطفاً استفاده خود را از این مجموعه داده فقط به هدف تحقیق محدود کنید.

و لطفاً به مقاله ما استناد کنید: MediaSum: مجموعه داده مصاحبه رسانه ای در مقیاس بزرگ برای خلاصه کردن گفتگو

اخلاق

ما فقط از داده‌های رونوشت‌های موجود در دسترس عموم از منابع رسانه‌ای استفاده کرده‌ایم و به دستورالعمل‌های فقط برای هدف تحقیق آن‌ها پایبند هستیم.

از آنجایی که رسانه‌ها و مهمانان ممکن است دیدگاه‌های جانبدارانه داشته باشند، رونوشت‌ها و خلاصه‌ها احتمالاً حاوی آن‌ها هستند. محتوای رونوشت ها و خلاصه ها فقط منعکس کننده دیدگاه رسانه ها و مهمانان است و باید با احتیاط به آنها نگاه کرد.

 • صفحه اصلی : https://github.com/zcgzcgzcg1/MediaSum

 • کد منبع : tfds.datasets.media_sum.Builder

 • نسخه ها :

  • 1.0.0 (پیش فرض): انتشار اولیه.
 • اندازه دانلود : Unknown size

 • حجم مجموعه داده : 4.11 GiB

 • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض به ~/tensorflow_datasets/downloads/manual/ ):
  manual_dir باید حاوی فایل های زیر باشد:

  • news_dialogue.json
  • train_val_test_split.json

فایل ها را می توان از صفحه GitHub مجموعه داده دانلود و استخراج کرد: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

 • ذخیره خودکار ( اسناد ): خیر

 • تقسیم ها :

شکاف مثال ها
'test' 10000
'train' 443,596
'val' 10000
 • ساختار ویژگی :
FeaturesDict({
  'date': Text(shape=(), dtype=string),
  'id': Text(shape=(), dtype=string),
  'program': Text(shape=(), dtype=string),
  'speaker': Sequence(Text(shape=(), dtype=string)),
  'summary': Text(shape=(), dtype=string),
  'url': Text(shape=(), dtype=string),
  'utt': Sequence(Text(shape=(), dtype=string)),
})
 • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
تاریخ متن رشته
شناسه متن رشته
برنامه متن رشته
بلندگو دنباله (متن) (هیچ یک،) رشته
خلاصه متن رشته
آدرس اینترنتی متن رشته
utt دنباله (متن) (هیچ یک،) رشته
 • نقل قول :
@article{zhu2021mediasum,
 title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
 author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
 journal={arXiv preprint arXiv:2103.06410},
 year={2021}
}