tài sản

  • Mô tả :

ASSET là bộ dữ liệu để đánh giá các hệ thống Đơn giản hóa Câu với nhiều phép biến đổi viết lại, như được mô tả trong "ASSET: Bộ dữ liệu để điều chỉnh và đánh giá các mô hình đơn giản hóa câu với nhiều phép biến đổi viết lại." Kho ngữ liệu bao gồm 2000 câu xác thực và 359 câu gốc kiểm tra, mỗi câu được đơn giản hóa 10 lần bởi những người chú thích khác nhau. Kho ngữ liệu cũng chứa các đánh giá của con người về khả năng bảo toàn ý nghĩa, tính lưu loát và tính đơn giản đối với kết quả đầu ra của một số hệ thống đơn giản hóa văn bản tự động.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

tài sản/đơn giản hóa (cấu hình mặc định)

  • Mô tả cấu hình : Một tập hợp các câu gốc được căn chỉnh với 10 cách đơn giản hóa có thể có cho mỗi câu.

  • Kích thước tập dữ liệu : 2.64 MiB

  • Chia tách :

Tách ra ví dụ
'test' 359
'validation' 2.000
  • Cấu trúc tính năng :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nguyên bản Chữ sợi dây
đơn giản hóa Trình tự (Văn bản) (Không có,) sợi dây

tài sản/xếp hạng

  • Mô tả cấu hình : Đánh giá của con người về đơn giản hóa văn bản được tạo tự động.

  • Kích thước tập dữ liệu : 1.44 MiB

  • Chia tách :

Tách ra ví dụ
'full' 4.500
  • Cấu trúc tính năng :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
diện mạo LớpNhãn int64
nguyên bản Chữ sợi dây
original_sentence_id tenxơ int32
Xếp hạng tenxơ int32
đơn giản hóa Chữ sợi dây
worker_id tenxơ int32