sinh tử

 • Mô tả :

SAMSum Corpus chứa hơn 16 nghìn đoạn hội thoại trò chuyện với phần tóm tắt được chú thích thủ công.

Có hai tính năng:

 • đối thoại: văn bản đối thoại.
 • tóm tắt: bản tóm tắt bằng văn bản của con người về cuộc đối thoại.
 • id: id của một ví dụ.

 • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

 • Trang chủ : https://arxiv.org/src/1911.12237v2/anc

 • Mã nguồn : tfds.datasets.samsum.Builder

 • Phiên bản :

  • 1.0.0 (mặc định): Không có ghi chú phát hành.
 • Kích thước tải xuống : Unknown size

 • Kích thước tập dữ liệu : 10.71 MiB

 • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
  Tải xuống https://arxiv.org/src/1911.12237v2/anc/corpus.7z, giải nén và đặt train.json, val.json và test.json trong thư mục hướng dẫn sử dụng.

 • Tự động lưu vào bộ đệm ( tài liệu ): Có

 • Chia tách :

Tách ra ví dụ
'test' 819
'train' 14,732
'validation' 818
 • Cấu trúc tính năng :
FeaturesDict({
  'dialogue': Text(shape=(), dtype=string),
  'id': Text(shape=(), dtype=string),
  'summary': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự miêu tả
Tính năngDict
hội thoại Chữ chuỗi
Tôi Chữ chuỗi
tóm lược Chữ chuỗi
 • trích dẫn :
@article{gliwa2019samsum,
 title={SAMSum Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization},
 author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
 journal={arXiv preprint arXiv:1911.12237},
 year={2019}
}