web_nlg

  • Mô tả :

Dữ liệu chứa các bộ từ 1 đến 7 bộ ba của dạng chủ ngữ-vị ngữ-đối tượng được trích xuất từ ​​(DBpedia)[ https://wiki.dbpedia.org/ ] và văn bản ngôn ngữ tự nhiên là sự diễn đạt thành lời của các bộ ba này. Dữ liệu thử nghiệm bao gồm 15 miền khác nhau trong đó chỉ có 10 miền xuất hiện trong dữ liệu huấn luyện. Bộ dữ liệu tuân theo định dạng bảng được chuẩn hóa.

Tách ra ví dụ
'test_all' 4,928
'test_unseen' 2,433
'train' 18,102
'validation' 2.268
  • Cấu trúc tính năng :
FeaturesDict({
    'input_text': FeaturesDict({
        'context': string,
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhập ký tự Tính năngDict
input_text/bối cảnh tenxơ sợi dây
input_text/bảng Sự phối hợp
input_text/table/column_header tenxơ sợi dây
input_text/bảng/nội dung tenxơ sợi dây
input_text/table/row_number tenxơ int16
văn bản đích tenxơ sợi dây
  • trích dẫn :
@inproceedings{gardent2017creating,
    title = ""Creating Training Corpora for {NLG} Micro-Planners"",
    author = ""Gardent, Claire  and
      Shimorina, Anastasia  and
      Narayan, Shashi  and
      Perez-Beltrachini, Laura"",
    booktitle = ""Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)"",
    month = jul,
    year = ""2017"",
    address = ""Vancouver, Canada"",
    publisher = ""Association for Computational Linguistics"",
    doi = ""10.18653/v1/P17-1017"",
    pages = ""179--188"",
    url = ""https://www.aclweb.org/anthology/P17-1017.pdf""
}