assin2

  • תיאור :

קונטקסטואליזציה

ASSIN 2 היא המהדורה השנייה של Avaliação de Similaridade Semântica e Inferência Textual (הערכת דמיון סמנטי והיכרות טקסטואלית), והייתה סדנה שנעשתה יחד עם STIL 2019 . זה עוקב אחר המהדורה הראשונה של ASSIN , המציעה משימה משותפת חדשה עם נתונים חדשים.

הסדנה העריכה מערכות שמעריכות שני סוגים של קשרים בין שני משפטים: דמיון טקסטואלי סמנטי והשלכות טקסטואלית.

דמיון טקסטואלי סמנטי מורכב מכימות רמת השקילות הסמנטית בין משפטים, בעוד שזיהוי טקסטואלי מורכב מסיווג האם המשפט הראשון כרוך במשפט השני.

נתונים

הקורפוס המשמש ב-ASSIN 2 מורכב ממשפטים פשוטים למדי. בעקבות הנהלים של SemEval 2014 משימה 1, ניסינו להסיר מהקורפוס ישויות שמות ודיבור עקיף, וניסינו לקבל את כל הפעלים בזמן הווה. הוראות ההערות שניתנו למפרשים זמינות (בפורטוגזית).

נתוני ההכשרה והאימות מורכבים, בהתאמה, מ-6,500 ו-500 זוגות משפטים בפורטוגזית ברזילאית, עם הערות לצורך שילוב ודמיון סמנטי. ערכי דמיון סמנטי נעים בין 1 ל-5, ומחלקות שילוב של טקסט הן או אינטלמנט או אין. נתוני הבדיקה מורכבים מכ-3,000 זוגות משפטים עם אותה ביאור. כל הנתונים סומנו באופן ידני.

הַעֲרָכָה

הערכה ההערכה של הגשות ל-ASSIN 2 הייתה עם אותם מדדים כמו ה-ASSIN הראשון, כאשר המדד F1 של דיוק וזיכרונות הוא המדד העיקרי להבאת טקסט וקורלציה של פירסון לדמיון סמנטי. תסריטי ההערכה זהים למהדורה האחרונה.

נ.ב.: התיאור מופק מדף הבית הרשמי .

לְפַצֵל דוגמאות
'test' 2,448
'train' 6,500
'validation' 500
  • מבנה תכונה :
FeaturesDict({
    'entailment': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    'hypothesis': Text(shape=(), dtype=tf.string),
    'id': tf.int32,
    'similarity': tf.float32,
    'text': Text(shape=(), dtype=tf.string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מעורבות ClassLabel tf.int64
הַשׁעָרָה טֶקסט tf.string
תְעוּדַת זֶהוּת מוֹתֵחַ tf.int32
דִמיוֹן מוֹתֵחַ tf.float32
טֶקסט טֶקסט tf.string
  • ציטוט :
@inproceedings{DBLP:conf/propor/RealFO20,
  author    = {Livy Real and
               Erick Fonseca and
               Hugo Gon{\c{c} }alo Oliveira},
  editor    = {Paulo Quaresma and
               Renata Vieira and
               Sandra M. Alu{\'{\i} }sio and
               Helena Moniz and
               Fernando Batista and
               Teresa Gon{\c{c} }alves},
  title     = {The {ASSIN} 2 Shared Task: {A} Quick Overview},
  booktitle = {Computational Processing of the Portuguese Language - 14th International
               Conference, {PROPOR} 2020, Evora, Portugal, March 2-4, 2020, Proceedings},
  series    = {Lecture Notes in Computer Science},
  volume    = {12037},
  pages     = {406--412},
  publisher = {Springer},
  year      = {2020},
  url       = {https://doi.org/10.1007/978-3-030-41505-1_39},
  doi       = {10.1007/978-3-030-41505-1_39},
  timestamp = {Tue, 03 Mar 2020 09:40:18 +0100},
  biburl    = {https://dblp.org/rec/conf/propor/RealFO20.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}