wikihow

 • Mô tả :

WikiHow là một bộ dữ liệu quy mô lớn mới sử dụng cơ sở kiến ​​thức WikiHow ( http://www.wikihow.com/ ) trực tuyến.

Có hai tính năng: - văn bản: wikihow trả lời văn bản. - tít: những dòng in đậm như phần tóm tắt.

Có hai phiên bản riêng biệt: - tất cả: bao gồm phần nối của tất cả các đoạn dưới dạng bài viết và các dòng in đậm dưới dạng tóm tắt tài liệu tham khảo. - sep: gồm từng đoạn và tóm tắt của nó.

Tải xuống "wikihowAll.csv" và "wikihowSep.csv" từ https://github.com/mahnazkoupaee/WikiHow-Dataset và đặt chúng vào thư mục thủ công https://www.tensorflow.org/datasets/api_docs/python/tfds/ download/DownloadConfig Việc phân tách đào tạo/xác thực/kiểm tra được cung cấp bởi các tác giả. Quá trình tiền xử lý được áp dụng để loại bỏ các bài viết ngắn (độ dài tóm tắt < 0,75 độ dài bài viết) và xóa các dấu phẩy thừa.

@misc{koupaee2018wikihow,
  title={WikiHow: A Large Scale Text Summarization Dataset},
  author={Mahnaz Koupaee and William Yang Wang},
  year={2018},
  eprint={1810.09305},
  archivePrefix={arXiv},
  primaryClass={cs.CL}
}

wikihow/all (cấu hình mặc định)

 • Mô tả cấu hình : Sử dụng nối tất cả các đoạn làm bài viết và các dòng in đậm làm tóm tắt tham khảo

 • Kích thước tập dữ liệu : 531.56 MiB

 • Chia tách :

Tách ra ví dụ
'test' 5,577
'train' 157,252
'validation' 5,599
 • Cấu trúc tính năng :
FeaturesDict({
  'headline': Text(shape=(), dtype=string),
  'text': Text(shape=(), dtype=string),
  'title': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tiêu đề Chữ sợi dây
chữ Chữ sợi dây
Tiêu đề Chữ sợi dây

wikihow/tháng 9

 • Mô tả cấu hình : sử dụng từng đoạn và tóm tắt của nó.

 • Kích thước tập dữ liệu : 1.07 GiB

 • Chia tách :

Tách ra ví dụ
'test' 37.800
'train' 1.060.732
'validation' 37,932
 • Cấu trúc tính năng :
FeaturesDict({
  'headline': Text(shape=(), dtype=string),
  'overview': Text(shape=(), dtype=string),
  'sectionLabel': Text(shape=(), dtype=string),
  'text': Text(shape=(), dtype=string),
  'title': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tiêu đề Chữ sợi dây
tổng quát Chữ sợi dây
phầnNhãn Chữ sợi dây
chữ Chữ sợi dây
Tiêu đề Chữ sợi dây