wiki_auto

 • Mô tả :

WikiAuto cung cấp một tập hợp các câu được căn chỉnh từ Wikipedia tiếng Anh và Wikipedia tiếng Anh đơn giản làm tài nguyên để đào tạo các hệ thống đơn giản hóa câu. Trước tiên, các tác giả đã lấy nguồn từ cộng đồng một tập hợp các cách sắp xếp thủ công giữa các câu trong một tập hợp con của Wikipedia tiếng Anh đơn giản và các phiên bản tương ứng của chúng trong Wikipedia tiếng Anh (điều này tương ứng với cấu hình manual ), sau đó đào tạo một hệ thống CRF thần kinh để dự đoán những cách sắp xếp này. Sau đó, mô hình được đào tạo đã được áp dụng cho các bài viết khác trong Wikipedia tiếng Anh đơn giản với bản đối chiếu tiếng Anh để tạo ra một kho văn bản lớn hơn gồm các câu được căn chỉnh (tương ứng với các cấu hình auto , auto_acl , auto_full_no_splitauto_full_with_split tại đây).

@inproceedings{acl/JiangMLZX20,
 author  = {Chao Jiang and
        Mounica Maddela and
        Wuwei Lan and
        Yang Zhong and
        Wei Xu},
 editor  = {Dan Jurafsky and
        Joyce Chai and
        Natalie Schluter and
        Joel R. Tetreault},
 title   = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
 booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
        Linguistics, {ACL} 2020, Online, July 5-10, 2020},
 pages   = {7943--7960},
 publisher = {Association for Computational Linguistics},
 year   = {2020},
 url    = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

wiki_auto/manual (cấu hình mặc định)

 • Mô tả cấu hình : Một tập hợp gồm 10 nghìn cặp câu Wikipedia được sắp xếp theo nhóm nhân viên.

 • Kích thước tải xuống : 53.47 MiB

 • Kích thước tập dữ liệu : 76.87 MiB

 • Tự động lưu vào bộ đệm ( tài liệu ): Có

 • Chia tách :

Tách ra ví dụ
'dev' 73,249
'test' 118,074
 • Cấu trúc tính năng :
FeaturesDict({
  'GLEU-score': float64,
  'alignment_label': ClassLabel(shape=(), dtype=int64, num_classes=3),
  'normal_sentence': Text(shape=(), dtype=string),
  'normal_sentence_id': Text(shape=(), dtype=string),
  'simple_sentence': Text(shape=(), dtype=string),
  'simple_sentence_id': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
GLEU-điểm tenxơ phao64
căn chỉnh_nhãn LớpNhãn int64
normal_sentence Chữ sợi dây
normal_sentence_id Chữ sợi dây
câu đơn giản Chữ sợi dây
đơn giản_sentence_id Chữ sợi dây

wiki_auto/auto_acl

 • Mô tả cấu hình : Các cặp câu được căn chỉnh để huấn luyện hệ thống ACL2020.

 • Kích thước tải xuống : 112.60 MiB

 • Kích thước tập dữ liệu : 138.83 MiB

 • Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)

 • Chia tách :

Tách ra ví dụ
'full' 488.332
 • Cấu trúc tính năng :
FeaturesDict({
  'normal_sentence': Text(shape=(), dtype=string),
  'simple_sentence': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
normal_sentence Chữ sợi dây
câu đơn giản Chữ sợi dây

wiki_auto/auto_full_no_split

 • Mô tả cấu hình : Tất cả các cặp câu được căn chỉnh tự động mà không cần tách câu.

 • Kích thước tải xuống : 135.02 MiB

 • Kích thước tập dữ liệu : 166.78 MiB

 • Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)

 • Chia tách :

Tách ra ví dụ
'full' 591.994
 • Cấu trúc tính năng :
FeaturesDict({
  'normal_sentence': Text(shape=(), dtype=string),
  'simple_sentence': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
normal_sentence Chữ sợi dây
câu đơn giản Chữ sợi dây

wiki_auto/auto_full_with_split

 • Mô tả cấu hình : Tất cả các cặp câu được căn chỉnh tự động với tách câu.

 • Kích thước tải xuống : 115.09 MiB

 • Kích thước tập dữ liệu : 141.20 MiB

 • Tự động lưu vào bộ nhớ cache ( tài liệu ): Chỉ khi shuffle_files=False (đầy đủ)

 • Chia tách :

Tách ra ví dụ
'full' 483.801
 • Cấu trúc tính năng :
FeaturesDict({
  'normal_sentence': Text(shape=(), dtype=string),
  'simple_sentence': Text(shape=(), dtype=string),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
normal_sentence Chữ sợi dây
câu đơn giản Chữ sợi dây

wiki_auto/auto

 • Mô tả cấu hình : Một tập hợp lớn các cặp câu được căn chỉnh tự động.

 • Kích thước tải xuống : 2.01 GiB

 • Kích thước tập dữ liệu : 1.76 GiB

 • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

 • Chia tách :

Tách ra ví dụ
'part_1' 125,059
'part_2' 13,036
 • Cấu trúc tính năng :
FeaturesDict({
  'example_id': Text(shape=(), dtype=string),
  'normal': FeaturesDict({
    'normal_article_content': Sequence({
      'normal_sentence': Text(shape=(), dtype=string),
      'normal_sentence_id': Text(shape=(), dtype=string),
    }),
    'normal_article_id': int32,
    'normal_article_title': Text(shape=(), dtype=string),
    'normal_article_url': Text(shape=(), dtype=string),
  }),
  'paragraph_alignment': Sequence({
    'normal_paragraph_id': Text(shape=(), dtype=string),
    'simple_paragraph_id': Text(shape=(), dtype=string),
  }),
  'sentence_alignment': Sequence({
    'normal_sentence_id': Text(shape=(), dtype=string),
    'simple_sentence_id': Text(shape=(), dtype=string),
  }),
  'simple': FeaturesDict({
    'simple_article_content': Sequence({
      'simple_sentence': Text(shape=(), dtype=string),
      'simple_sentence_id': Text(shape=(), dtype=string),
    }),
    'simple_article_id': int32,
    'simple_article_title': Text(shape=(), dtype=string),
    'simple_article_url': Text(shape=(), dtype=string),
  }),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
ví dụ_id Chữ sợi dây
thông thường Tính năngDict
bình thường/bình thường_article_content Sự phối hợp
normal/normal_article_content/normal_sentence Chữ sợi dây
normal/normal_article_content/normal_sentence_id Chữ sợi dây
bình thường/bình thường_article_id tenxơ int32
bình thường/bình thường_article_title Chữ sợi dây
bình thường/bình thường_article_url Chữ sợi dây
đoạn_alignment Sự phối hợp
đoạn_căn chỉnh/bình thường_đoạn_id Chữ sợi dây
đoạn_alignment/simple_paragraph_id Chữ sợi dây
câu_alignment Sự phối hợp
câu_căn/bình_thường_câu_id Chữ sợi dây
câu_alignment/simple_sentence_id Chữ sợi dây
giản dị Tính năngDict
đơn giản/simple_article_content Sự phối hợp
đơn giản/simple_article_content/simple_sentence Chữ sợi dây
đơn giản/simple_article_content/simple_sentence_id Chữ sợi dây
đơn giản/simple_article_id tenxơ int32
đơn giản/simple_article_title Chữ sợi dây
đơn giản/simple_article_url Chữ sợi dây