חץ

  • תיאור :

DART (יצירת רשומות DAta לטקסט) מכיל קשרי ישות RDF עם הערות בתיאורי משפטים המכסים את כל העובדות בקבוצה המשולשת. DART נבנה באמצעות מערכי נתונים קיימים כגון: WikiTableQuestions, WikiSQL, WebNLG ו- Cleaned E2E. הטבלאות מ- WikiTableQuestions ו- WikiSQL הועברו לשלשות של נושא-פרדיקט-אובייקט, והערות הטקסט שלה נאספו בעיקר מ-MTurk. הייצוגים המשמעותיים ב-E2E הועברו גם הם לשלשות והשתמשו בתיאורים שלו, חלק שלא ניתן היה לשנות הושמטו.

פיצולי הנתונים של E2E ו-WebNLG נשמרים, ועבור WikiTableQuestions ו- WikiSQL נעשה שימוש בדמיון ה-Jaccard כדי לשמור טבלאות דומות באותה קבוצה (train/dev/tes).

מערך נתונים זה נבנה לפי פורמט טבלה סטנדרטי.

לְפַצֵל דוגמאות
'test' 12,552
'train' 62,659
'validation' 6,980
  • מבנה תכונה :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
הקלד טקסט FeaturesDict
input_text/טבלה סדר פעולות
input_text/table/column_header מוֹתֵחַ tf.string
input_text/טבלה/תוכן מוֹתֵחַ tf.string
input_text/table/row_number מוֹתֵחַ tf.int16
target_text מוֹתֵחַ tf.string
  • ציטוט :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}