xquad

  • תיאור :

XQuAD (Cross-lingual Question Answering Dataset) הוא מערך נתונים בהשוואה להערכת ביצועי מענה על שאלות חוצות לשוניות. מערך הנתונים מורכב מתת-קבוצה של 240 פסקאות ו-1190 זוגות שאלות ותשובות ממערך הפיתוח של SQuAD v1.1 (Rajpurkar et al., 2016) יחד עם התרגומים המקצועיים שלהם לעשר שפות: ספרדית, גרמנית, יוונית, רוסית, טורקית , ערבית, וייטנאמית, תאילנדית, סינית והינדית. כתוצאה מכך, מערך הנתונים מקביל לחלוטין על פני 11 שפות. כדי להפעיל את XQuAD בהגדרת ברירת המחדל של Zero-shot, השתמש בנתוני ההדרכה והאימות של SQuAD v1.1 כאן: https://www.tensorflow.org/datasets/catalog/squad

אנו כוללים גם פיצולים של "תרגם-רכב", "תרגום-מפתח" ו-"תרגום-מבחן" עבור כל שפה שאינה אנגלית מ-XTREME (Hu et al., 2020). ניתן להשתמש בהם להפעלת XQuAD בהגדרות "תרגם-רכבת" או "תרגם-מבחן".

  • דף הבית : https://github.com/deepmind/xquad

  • קוד מקור : tfds.question_answering.Xquad

  • גרסאות :

    • 3.0.0 (ברירת מחדל): מתקן בעיה במספר דוגמאות שבהן טווחי תשובות לא מיושרים עקב הסרת רווח לבן בהקשר. שינוי זה משפיע על כ-14% מדוגמאות הבדיקות.
  • תכונות :

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (תצורת ברירת המחדל)

  • תיאור תצורה : פיצול מבחן XQuAD 'ar', עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן בתרגום מכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 420.97 MiB

  • גודל מערך נתונים : 134.83 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/de

  • תיאור תצורה : פיצול מבחן XQuAD 'de', עם פיצולים של translate-train/translate-dev/translate-test בתרגום מכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 127.04 MiB

  • גודל מערך נתונים : 98.80 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xquad/el

  • תיאור תצורה : פיצול מבחן XQuAD 'el', עם פיצולי תרגום-רכבת/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 499.40 MiB

  • גודל ערכת נתונים: 157.90 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • תיאור תצורה : פיצול מבחן XQuAD 'es', עם פיצולי תרגום-רכב/תרגום-פיתוח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 138.41 MiB

  • גודל ערכת נתונים: 104.96 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad/היי

  • תיאור תצורה : פיצול בדיקה 'היי' של XQuAD, עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 472.23 MiB

  • גודל ערכת נתונים: 207.85 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/ru

  • תיאור תצורה : פיצול מבחן XQuAD 'ru', עם פיצולים של translate-train/translate-dev/translate-test בתרגום מכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 513.80 MiB

  • גודל מערך נתונים : 159.38 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xquad/th

  • תיאור תצורה : פיצול הבדיקה 'ה' של XQuAD, עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 461.54 MiB

  • גודל מערך נתונים : 199.57 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן (בדיקה, translate-dev, translate-test), רק כאשר shuffle_files=False (translate-train)

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xquad/tr

  • תיאור תצורה : פיצול מבחן XQuAD 'tr', עם פיצולי translate-train/translate-dev/translate-test מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 151.08 MiB

  • גודל ערכת נתונים: 97.56 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • תיאור תצורה : פיצול מבחן XQuAD 'vi', עם פיצולי תרגום-רכבת/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 218.09 MiB

  • גודל ערכת נתונים: 120.03 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • תיאור תצורה : פיצול מבחן XQuAD 'zh', עם פיצולי תרגום-רכב/תרגום-מפתח/תרגום-מבחן מתורגמים במכונה מ-XTREME (Hu et al., 2020).

  • גודל הורדה : 174.57 MiB

  • גודל ערכת נתונים: 80.79 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/en

  • תיאור תצורה : XQuAD 'en' test split.

  • גודל הורדה : 595.10 KiB

  • גודל מערך נתונים : 1.19 MiB

  • שמור אוטומטי במטמון ( תיעוד ): כן

  • פיצולים :

לְפַצֵל דוגמאות
'test' 1,190