لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

سهم

  • الوصف :

يحتوي DART (إنشاء DAta Record to Text) على علاقة كيان RDF مشروحة بأوصاف الجمل التي تغطي جميع الحقائق في المجموعة الثلاثية. تم إنشاء DART باستخدام مجموعات البيانات الحالية مثل: WikiTableQuestions و WikiSQL و WebNLG و Cleaned E2E. تم تحويل الجداول من WikiTableQuestions و WikiSQL إلى ثلاثة أضعاف الموضوع - المسند - الكائن ، وتم جمع التعليقات التوضيحية النصية بشكل أساسي من MTurk. تم أيضًا تحويل التمثيلات ذات المعنى في E2E إلى ثلاثيات وتم استخدام أوصافها ، وتم إسقاط بعضها الذي لا يمكن تغييره.

يتم الاحتفاظ بتقسيمات مجموعة البيانات لـ E2E و WebNLG ، وبالنسبة إلى WikiTableQuestions و WikiSQL ، يتم استخدام تشابه Jaccard للاحتفاظ بجداول مماثلة في نفس المجموعة (train / dev / tes).

تم إنشاء مجموعة البيانات هذه باتباع تنسيق جدول قياسي.

  • الصفحة الرئيسية : https://github.com/Yale-LILY/dart

  • كود المصدر : tfds.structured.dart.Dart

  • إصدارات :

    • 0.1.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 249.71 MiB

  • حجم مجموعة البيانات : 38.83 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 12552
'train' 62659
'validation' 6980
  • الميزات :
FeaturesDict({
    'input_text': FeaturesDict({
        'table': Sequence({
            'column_header': tf.string,
            'content': tf.string,
            'row_number': tf.int16,
        }),
    }),
    'target_text': tf.string,
})
  • الاقتباس :
@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}