Dart oyunu

  • Açıklama :

DART (Veri Kaydı - Metin üretimi), üçlü kümedeki tüm gerçekleri kapsayan cümle açıklamalarıyla açıklamalı RDF varlık ilişkisini içerir. DART, WikiTableQuestions, WikiSQL, WebNLG ve Cleaned E2E gibi mevcut veri kümeleri kullanılarak oluşturulmuştur. WikiTableQuestions ve WikiSQL'den alınan tablolar özne-yüklem-nesne üçlülerine dönüştürülmüş ve metin açıklamaları ağırlıklı olarak MTurk'tan toplanmıştır. E2E'deki anlamlı temsiller de üçlülere dönüştürülerek açıklamaları kullanılmış, dönüştürülemeyenlerin bir kısmı çıkarılmıştır.

E2E ve WebNLG'nin veri kümesi bölmeleri tutulur ve WikiTableQuestions ve WikiSQL için Jaccard benzerliği, benzer tabloları aynı kümede tutmak için kullanılır (train/dev/tes).

Bu veri seti, standartlaştırılmış bir tablo formatı izlenerek oluşturulmuştur.

Bölmek Örnekler
'test' 12.552
'train' 62.659
'validation' 6.980
  • Özellik yapısı :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
giriş metni ÖzelliklerDict
input_text/tablo Sekans
input_text/tablo/column_header tensör tf.string
input_text/tablo/içerik tensör tf.string
girdi_metni/tablo/satır_sayısı tensör tf.int16
hedef_metin tensör tf.string
  • alıntı :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}