- תיאור:
ASSET הוא מערך נתונים להערכת מערכות פישוט משפטים עם טרנספורמציות כתיבה מחדש מרובות, כמתואר ב-"ASSET: מערך נתונים לכוונון והערכה של מודלים של פישוט משפטים עם טרנספורמציות מרובות של שכתוב". הקורפוס מורכב מ-2,000 משפטי אימות ו-359 משפטים מקוריים לבדיקה שכל אחד מהם פשט 10 פעמים על ידי כותבים שונים. הקורפוס מכיל גם שיפוט אנושי של שימור משמעות, שטף ופשטות עבור הפלטים של מספר מערכות פישוט טקסט אוטומטיות.
קוד מקור:
tfds.text_simplification.asset.Asset
גרסאות:
-
1.0.0
(ברירת המחדל): מהדורה ראשונית.
-
גודל ההורדה:
3.47 MiB
Auto-במטמון ( תיעוד ): כן
מפתחות השגחה (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט:
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
נכס/פישוט (תצורת ברירת מחדל)
תיאור Config: סט של משפטים מקוריים מיושרים עם 10 פישוטים אפשריים עבור כול אחד.
מערך נתונים גודל:
2.64 MiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 359 |
'validation' | 2,000 |
- מאפיינים:
FeaturesDict({
'original': Text(shape=(), dtype=tf.string),
'simplifications': Sequence(Text(shape=(), dtype=tf.string)),
})
- דוגמאות ( tfds.as_dataframe ):
נכס/דירוגים
תיאור Config: דירוגים אנושים של פישוט טקסט מיוצר באופן אוטומטי.
מערך נתונים גודל:
1.44 MiB
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'full' | 4,500 |
- מאפיינים:
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
'original': Text(shape=(), dtype=tf.string),
'original_sentence_id': tf.int32,
'rating': tf.int32,
'simplification': Text(shape=(), dtype=tf.string),
'worker_id': tf.int32,
})
- דוגמאות ( tfds.as_dataframe ):