دارت

  • توضیحات :

DART (تولید رکورد داده به متن) حاوی رابطه موجودیت RDF است که با توضیحات جملاتی مشروح شده است که تمام حقایق در مجموعه سه گانه را پوشش می دهد. DART با استفاده از مجموعه داده های موجود مانند: WikiTableQuestions، WikiSQL، WebNLG و Cleaned E2E ساخته شد. جداول از WikiTableQuestions و WikiSQL به سه گانه موضوع - محمول - مفعول تبدیل شدند و حاشیه‌نویسی‌های متنی آن عمدتاً از MTurk جمع‌آوری شد. نمایش‌های معنی‌دار در E2E نیز به سه‌گانه تبدیل شدند و از توصیف‌های آن استفاده شد، برخی که قابل تبدیل نبودند حذف شدند.

تقسیم داده‌های E2E و WebNLG حفظ می‌شوند و برای WikiTableQuestions و WikiSQL از شباهت Jaccard برای نگهداری جداول مشابه در یک مجموعه (train/dev/tes) استفاده می‌شود.

این مجموعه داده بر اساس یک قالب جدول استاندارد ساخته شده است.

شکاف مثال ها
'test' 12552
'train' 62659
'validation' 6980
  • ساختار ویژگی :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': string,
            'content': string,
            'row_number': int16,
        }),
    }),
    'target_text': string,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
متن ورودی FeaturesDict
input_text/table توالی
input_text/table/column_header تانسور رشته
input_text/table/content تانسور رشته
input_text/table/row_number تانسور int16
هدف_متن تانسور رشته
  • نقل قول :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}