media_sum

  • Mô tả :

Bộ dữ liệu phỏng vấn truyền thông quy mô lớn này chứa 463,6 nghìn bản ghi với các bản tóm tắt trừu tượng, được thu thập từ bản ghi cuộc phỏng vấn và mô tả tổng quan/chủ đề từ NPR và CNN.

Vui lòng giới hạn việc sử dụng tập dữ liệu này chỉ cho mục đích nghiên cứu.

Và vui lòng trích dẫn bài báo của chúng tôi: MediaSum: Bộ dữ liệu phỏng vấn truyền thông quy mô lớn để tóm tắt đối thoại

đạo đức

Chúng tôi chỉ sử dụng dữ liệu bảng điểm có sẵn công khai từ các nguồn truyền thông và tuân thủ nguyên tắc chỉ dành cho mục đích nghiên cứu của họ.

Vì phương tiện truyền thông và khách mời có thể có quan điểm thiên vị, nên bản ghi và tóm tắt có thể sẽ chứa những quan điểm đó. Nội dung của các bản ghi và tóm tắt chỉ phản ánh quan điểm của giới truyền thông và khách mời, và cần được xem xét một cách thận trọng.

  • Trang chủ : https://github.com/zcgzcgzcg1/MediaSum

  • Mã nguồn : tfds.datasets.media_sum.Builder

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 4.11 GiB

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir phải chứa các tệp:

    • news_dialogue.json
    • train_val_test_split.json

Có thể tải xuống và trích xuất các tệp từ trang GitHub của tập dữ liệu: https://github.com/zcgzcgzcg1/MediaSum/tree/main/data

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'test' 10.000
'train' 443,596
'val' 10.000
  • Cấu trúc tính năng :
FeaturesDict({
    'date': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'program': Text(shape=(), dtype=string),
    'speaker': Sequence(Text(shape=(), dtype=string)),
    'summary': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
    'utt': Sequence(Text(shape=(), dtype=string)),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng Dtype Sự miêu tả
Tính năngDict
ngày Chữ sợi dây
nhận dạng Chữ sợi dây
chương trình Chữ sợi dây
loa Trình tự (Văn bản) (Không có,) sợi dây
bản tóm tắt Chữ sợi dây
url Chữ sợi dây
ừm Trình tự (Văn bản) (Không có,) sợi dây
  • trích dẫn :
@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}