נכס

  • תיאור:

ASSET הוא מערך נתונים להערכת מערכות פישוט משפטים עם טרנספורמציות כתיבה מחדש מרובות, כמתואר ב-"ASSET: מערך נתונים לכוונון והערכה של מודלים של פישוט משפטים עם טרנספורמציות מרובות של שכתוב". הקורפוס מורכב מ-2,000 משפטי אימות ו-359 משפטים מקוריים לבדיקה שכל אחד מהם פשט 10 פעמים על ידי כותבים שונים. הקורפוס מכיל גם שיפוט אנושי של שימור משמעות, שטף ופשטות עבור הפלטים של מספר מערכות פישוט טקסט אוטומטיות.

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Benoit  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

נכס/פישוט (תצורת ברירת מחדל)

  • תיאור Config: סט של משפטים מקוריים מיושרים עם 10 פישוטים אפשריים עבור כול אחד.

  • מערך נתונים גודל: 2.64 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 359
'validation' 2,000
  • מאפיינים:
FeaturesDict({
    'original': Text(shape=(), dtype=tf.string),
    'simplifications': Sequence(Text(shape=(), dtype=tf.string)),
})

נכס/דירוגים

  • תיאור Config: דירוגים אנושים של פישוט טקסט מיוצר באופן אוטומטי.

  • מערך נתונים גודל: 1.44 MiB

  • פיצולים:

לְפַצֵל דוגמאות
'full' 4,500
  • מאפיינים:
FeaturesDict({
    'aspect': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'original': Text(shape=(), dtype=tf.string),
    'original_sentence_id': tf.int32,
    'rating': tf.int32,
    'simplification': Text(shape=(), dtype=tf.string),
    'worker_id': tf.int32,
})