ダーツ

  • 説明:

DART (DAta Record to Text generation) には、トリプル セット内のすべての事実をカバーする文の説明で注釈が付けられた RDF エンティティ関係が含まれています。 DART は、WikiTableQuestions、WikiSQL、WebNLG、Cleaned E2E などの既存のデータセットを使用して構築されました。 WikiTableQuestions と WikiSQL のテーブルは主語-述語-目的語のトリプルに変換され、そのテキスト注釈は主に MTurk から収集されました。 E2E の意味のある表現もトリプルに変換され、その記述が使用されました。変換できなかったものは削除されました。

E2E と WebNLG のデータセット分割は維持され、WikiTableQuestions と WikiSQL では Jaccard 類似性を使用して同じセット (train/dev/tes) に類似のテーブルを維持します。

このデータセットは、標準化されたテーブル形式に従って構築されています。

スプリット
'test' 12,552
'train' 62,659
'validation' 6,980
  • 機能構造:
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
入力テキスト特徴辞書
入力テキスト/テーブル順序
input_text/table/column_headerテンソルストリング
入力テキスト/テーブル/コンテンツテンソルストリング
入力テキスト/テーブル/行番号テンソルint16
target_textテンソルストリング
  • 引用
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}