dard

  • Descriptif :

DART (Data Record to Text generation) contient une relation d'entité RDF annotée avec des descriptions de phrases qui couvrent tous les faits du triple ensemble. DART a été construit à l'aide d'ensembles de données existants tels que : WikiTableQuestions, WikiSQL, WebNLG et Cleaned E2E. Les tables de WikiTableQuestions et WikiSQL ont été transformées en triplets sujet-prédicat-objet, et ses annotations de texte ont été principalement collectées à partir de MTurk. Les représentations significatives dans E2E ont également été transformées en triplets et ses descriptions ont été utilisées, certaines qui ne pouvaient pas être transformées ont été supprimées.

Les divisions de l'ensemble de données d'E2E et de WebNLG sont conservées, et pour les WikiTableQuestions et WikiSQL, la similarité Jaccard est utilisée pour conserver des tables similaires dans le même ensemble (train/dev/tes).

Cet ensemble de données est construit selon un format de tableau standardisé.

Diviser Exemples
'test' 12 552
'train' 62 659
'validation' 6 980
  • Structure des fonctionnalités :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
Texte de saisie FonctionnalitésDict
input_text/table Séquence
input_text/table/column_header Tenseur chaîne de caractères
input_text/table/contenu Tenseur chaîne de caractères
input_text/table/row_number Tenseur int16
texte_cible Tenseur chaîne de caractères
  • Citation :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}