ダーツ

  • 説明

DART(DAtaレコードからテキストへの生成)には、トリプルセット内のすべての事実をカバーする文の説明で注釈が付けられたRDFエンティティ関係が含まれています。 DARTは、WikiTableQuestions、WikiSQL、WebNLG、CleanedE2Eなどの既存のデータセットを使用して構築されました。 WikiTableQuestionsとWikiSQLのテーブルは、主語-述語-目的語のトリプルに変換され、そのテキスト注釈は主にMTurkから収集されました。 E2Eの意味のある表現もトリプルに変換され、その説明が使用されました。変換できなかったものは削除されました。

E2EとWebNLGのデータセット分割が保持され、WikiTableQuestionsとWikiSQLの場合、Jaccardの類似性を使用して、類似のテーブルを同じセット(train / dev / tes)に保持します。

このデータセットは、標準化されたテーブル形式に従って作成されます。

スプリット
'test' 12,552
'train' 62,659
'validation' 6,980
  • 特長
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • 引用
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}