phi tiêu

  • Mô tả :

DART (Tạo bản ghi dữ liệu thành văn bản) chứa mối quan hệ thực thể RDF được chú thích với các mô tả câu bao gồm tất cả các sự kiện trong bộ ba. DART được xây dựng bằng cách sử dụng các bộ dữ liệu hiện có như: WikiTableQuestions, WikiSQL, WebNLG và Cleaned E2E. Các bảng từ WikiTableQuestions và WikiSQL đã được chuyển thành bộ ba chủ ngữ-vị ngữ-đối tượng và chú thích văn bản của nó chủ yếu được thu thập từ MTurk. Các biểu diễn có ý nghĩa trong E2E cũng được chuyển thành bộ ba và các mô tả của nó đã được sử dụng, một số biểu diễn không thể chuyển đổi đã bị loại bỏ.

Các phần tách tập dữ liệu của E2E và WebNLG được giữ nguyên, còn đối với WikiTableQuestions và WikiSQL, sự giống nhau của Jaccard được sử dụng để giữ các bảng tương tự trong cùng một tập hợp (train/dev/tes).

Bộ dữ liệu này được xây dựng theo định dạng bảng được chuẩn hóa.

Tách ra ví dụ
'test' 12,552
'train' 62,659
'validation' 6.980
  • Cấu trúc tính năng :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
nhập ký tự Tính năngDict
input_text/bảng Sự phối hợp
input_text/table/column_header tenxơ sợi dây
input_text/bảng/nội dung tenxơ sợi dây
input_text/table/row_number tenxơ int16
văn bản đích tenxơ sợi dây
  • trích dẫn :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}