- תיאור :
ASSET הוא מערך נתונים להערכת מערכות פישוט משפטים עם טרנספורמציות כתיבה מחדש מרובות, כמתואר ב"ASSET: מערך נתונים לכוונון והערכה של מודלים של פישוט משפטים עם טרנספורמציות מרובות של שכתוב". הקורפוס מורכב מ-2,000 משפטי אימות ו-359 משפטים מקוריים לבדיקה שכל אחד מהם פשט 10 פעמים על ידי כותבים שונים. הקורפוס מכיל גם שיפוט אנושי של שימור משמעות, שטף ופשטות עבור הפלטים של מספר מערכות פישוט טקסט אוטומטיות.
תיעוד נוסף : חקור על ניירות עם קוד
קוד מקור :
tfds.datasets.asset.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): שחרור ראשוני.
-
גודל הורדה :
3.47 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
מפתחות בפיקוח (ראה
as_supervised
doc ):None
איור ( tfds.show_examples ): לא נתמך.
ציטוט :
@inproceedings{alva-manchego-etal-2020-asset,
title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
author = "Alva-Manchego, Fernando and
Martin, Louis and
Bordes, Antoine and
Scarton, Carolina and
Sagot, Benoit and
Specia, Lucia",
booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
month = jul,
year = "2020",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2020.acl-main.424",
pages = "4668--4679",
}
נכס/פישוט (תצורת ברירת מחדל)
תיאור תצורה : קבוצה של משפטים מקוריים מיושרים עם 10 הפשטות אפשריות עבור כל אחד מהם.
גודל מערך נתונים :
2.64 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 359 |
'validation' | 2,000 |
- מבנה תכונה :
FeaturesDict({
'original': Text(shape=(), dtype=string),
'simplifications': Sequence(Text(shape=(), dtype=string)),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
מְקוֹרִי | טֶקסט | חוּט | ||
הפשטות | רצף (טקסט) | (אף אחד,) | חוּט |
- דוגמאות ( tfds.as_dataframe ):
נכס/דירוגים
תיאור תצורה : דירוגים אנושיים של פישוט טקסט שהופק אוטומטית.
גודל מערך נתונים :
1.44 MiB
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'full' | 4,500 |
- מבנה תכונה :
FeaturesDict({
'aspect': ClassLabel(shape=(), dtype=int64, num_classes=3),
'original': Text(shape=(), dtype=string),
'original_sentence_id': int32,
'rating': int32,
'simplification': Text(shape=(), dtype=string),
'worker_id': int32,
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
אספקט | ClassLabel | int64 | ||
מְקוֹרִי | טֶקסט | חוּט | ||
מזהה_משפט_מקורי | מוֹתֵחַ | int32 | ||
דֵרוּג | מוֹתֵחַ | int32 | ||
פישוט | טֶקסט | חוּט | ||
עובד_מזהה | מוֹתֵחַ | int32 |
- דוגמאות ( tfds.as_dataframe ):