dard

  • Description:

DART (Data Record to Text generation) contient une relation d'entité RDF annotée avec des descriptions de phrases qui couvrent tous les faits du triple ensemble. DART a été construit à l'aide d'ensembles de données existants tels que : WikiTableQuestions, WikiSQL, WebNLG et Cleaned E2E. Les tables de WikiTableQuestions et WikiSQL ont été transformées en triplets sujet-prédicat-objet, et ses annotations textuelles ont été principalement collectées à partir de MTurk. Les représentations significatives dans E2E ont également été transformées en triplets et ses descriptions ont été utilisées, certaines qui ne pouvaient pas être transformées ont été abandonnées.

Les divisions des ensembles de données E2E et WebNLG sont conservées, et pour WikiTableQuestions et WikiSQL, la similarité Jaccard est utilisée pour conserver des tables similaires dans le même ensemble (train/dev/tes).

Cet ensemble de données est construit suivant un format de tableau standardisé.

Diviser Exemples
'test' 12 552
'train' 62 659
'validation' 6 980
  • Caractéristiques:
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • citation:
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}