دارایی

  • توضیحات :

ASSET مجموعه داده ای برای ارزیابی سیستم های ساده سازی جمله با تبدیل های چندگانه بازنویسی است، همانطور که در "ASSET: مجموعه داده ای برای تنظیم و ارزیابی مدل های ساده سازی جمله با تبدیل های چندگانه بازنویسی" توضیح داده شده است. این مجموعه از 2000 اعتبارسنجی و 359 جمله اصلی آزمایشی تشکیل شده است که هر کدام 10 بار توسط حاشیه نویسان مختلف ساده شده اند. این مجموعه همچنین حاوی قضاوت های انسانی در مورد حفظ معنا، روانی و سادگی برای خروجی های چندین سیستم ساده سازی متن خودکار است.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

دارایی/ساده سازی (پیکربندی پیش فرض)

  • توضیحات پیکربندی : مجموعه ای از جملات اصلی که با 10 ساده سازی ممکن برای هر کدام تراز شده اند.

  • حجم مجموعه داده : 2.64 MiB

  • تقسیم ها :

شکاف مثال ها
'test' 359
'validation' 2000
  • ساختار ویژگی :
FeaturesDict({
    'original': Text(shape=(), dtype=string),
    'simplifications': Sequence(Text(shape=(), dtype=string)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
اصلی متن رشته
ساده سازی ها دنباله (متن) (هیچ یک،) رشته

دارایی / رتبه بندی

  • توضیحات پیکربندی : رتبه‌بندی انسانی ساده‌سازی متن به‌طور خودکار تولید شده است.

  • حجم مجموعه داده : 1.44 MiB

  • تقسیم ها :

شکاف مثال ها
'full' 4500
  • ساختار ویژگی :
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'original': Text(shape=(), dtype=string),
    'original_sentence_id': int32,
    'rating': int32,
    'simplification': Text(shape=(), dtype=string),
    'worker_id': int32,
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
جنبه ClassLabel int64
اصلی متن رشته
شناسه_جمله_اصلی تانسور int32
رتبه بندی تانسور int32
ساده سازی متن رشته
worker_id تانسور int32