wiki_table_text

  • Mô tả :

Các bảng Wikipedia có ít nhất 3 hàng và 2 cột, 3 hàng ngẫu nhiên cho mỗi bảng đã được chọn để chú thích thêm. Mỗi hàng được chú thích bởi một người khác, vì vậy tập dữ liệu được tạo bởi các cặp (bảng một hàng, mô tả văn bản). Chú thích bao gồm ít nhất 2 ô của hàng, nhưng không bắt buộc phải bao gồm tất cả. Bộ dữ liệu tuân theo định dạng bảng được chuẩn hóa.

Tách ra ví dụ
'test' 2.000
'train' 10.000
'validation' 1.318
  • Cấu trúc tính năng :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhập ký tự Tính năngDict
input_text/bảng Sự phối hợp
input_text/table/column_header tenxơ sợi dây
input_text/bảng/nội dung tenxơ sợi dây
input_text/table/row_number tenxơ int16
văn bản đích tenxơ sợi dây
  • trích dẫn :
@inproceedings{bao2018table,
  title={Table-to-Text: Describing Table Region with Natural Language},
  author={Junwei Bao and Duyu Tang and Nan Duan and Zhao Yan and Yuanhua Lv and Ming Zhou and Tiejun Zhao},
  booktitle={AAAI},
  url={https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/download/16138/16782},
  year={2018}
}