xquad

  • Descripción :

XQuAD (Conjunto de datos de respuesta a preguntas en varios idiomas) es un conjunto de datos de referencia para evaluar el rendimiento de respuesta a preguntas en varios idiomas. El conjunto de datos consta de un subconjunto de 240 párrafos y 1190 pares de preguntas y respuestas del conjunto de desarrollo de SQuAD v1.1 (Rajpurkar et al., 2016) junto con sus traducciones profesionales a diez idiomas: español, alemán, griego, ruso, turco. , árabe, vietnamita, tailandés, chino e hindi. En consecuencia, el conjunto de datos es completamente paralelo en 11 idiomas. Para ejecutar XQuAD en la configuración predeterminada de disparo cero, use los datos de capacitación y validación de SQuAD v1.1 aquí: https://www.tensorflow.org/datasets/catalog/squad

También incluimos divisiones "translate-train", "translate-dev" y "translate-test" para cada idioma que no sea inglés de XTREME (Hu et al., 2020). Estos se pueden usar para ejecutar XQuAD en la configuración "traducir-entrenar" o "traducir-prueba".

  • Página de inicio: https://github.com/deepmind/xquad

  • Código fuente : tfds.question_answering.Xquad

  • Versiones :

    • 3.0.0 (predeterminado): soluciona el problema con una serie de ejemplos en los que los intervalos de respuesta están desalineados debido a la eliminación de espacios en blanco del contexto. Este cambio afecta aproximadamente al 14 % de los ejemplos de prueba.
  • Estructura de características :

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
respuestas Secuencia
respuestas/answer_start Tensor tf.int32
respuestas/texto Texto tf.cadena
contexto Texto tf.cadena
identificación Tensor tf.cadena
pregunta Texto tf.cadena
título Texto tf.cadena
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (configuración predeterminada)

  • Descripción de la configuración : división de prueba XQuAD 'ar', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 420.97 MiB

  • Tamaño del conjunto de datos : 134.83 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,541
'translate-test' 1,151
'translate-train' 86,787

xquad/de

  • Descripción de la configuración : división de prueba 'de' de XQuAD, con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 127.04 MiB

  • Tamaño del conjunto de datos : 98.80 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,371
'translate-test' 1,168
'translate-train' 82,603

xcuadrado/el

  • Descripción de la configuración : división de prueba XQuAD 'el', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 499.40 MiB

  • Tamaño del conjunto de datos : 157.90 MiB

  • Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando shuffle_files=False (traducir-entrenar)

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,100
'translate-test' 1,182
'translate-train' 79,946

xquad/es

  • Descripción de la configuración : división de prueba XQuAD 'es', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 138.41 MiB

  • Tamaño del conjunto de datos : 104.96 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,566
'translate-test' 1,188
'translate-train' 87,488

xquad/hola

  • Descripción de la configuración : división de prueba 'hi' de XQuAD, con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 472.23 MiB

  • Tamaño del conjunto de datos : 207.85 MiB

  • Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando shuffle_files=False (traducir-entrenar)

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,536
'translate-test' 1,184
'translate-train' 85,804

xquad/ru

  • Descripción de la configuración : división de prueba XQuAD 'ru', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 513.80 MiB

  • Tamaño del conjunto de datos : 159.38 MiB

  • Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando shuffle_files=False (traducir-entrenar)

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,469
'translate-test' 1,190
'translate-train' 84,869

xcuadrado/th

  • Descripción de la configuración : división de prueba 'th' de XQuAD, con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 461.54 MiB

  • Tamaño del conjunto de datos : 199.57 MiB

  • Auto-caché ( documentación ): Sí (prueba, traducir-dev, traducir-prueba), Solo cuando shuffle_files=False (traducir-entrenar)

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,516
'translate-test' 1,157
'translate-train' 85,846

xcuadrado/tr

  • Descripción de la configuración : división de prueba XQuAD 'tr', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de descarga : 151.08 MiB

  • Tamaño del conjunto de datos : 97.56 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,535
'translate-test' 1,112
'translate-train' 86,511

xquad/vi

  • Descripción de la configuración : división de prueba XQuAD 'vi', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 218.09 MiB

  • Tamaño del conjunto de datos : 120.03 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,555
'translate-test' 1,178
'translate-train' 87,187

xquad/zh

  • Descripción de la configuración : división de prueba XQuAD 'zh', con divisiones de traducción-entrenamiento/translate-dev/translate-test traducidas automáticamente de XTREME (Hu et al., 2020).

  • Tamaño de la descarga : 174.57 MiB

  • Tamaño del conjunto de datos : 80.79 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190
'translate-dev' 10,475
'translate-test' 1,186
'translate-train' 85,700

xquad/es

  • Descripción de la configuración : división de prueba XQuAD 'en'.

  • Tamaño de la descarga : 595.10 KiB

  • Tamaño del conjunto de datos : 1.19 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'test' 1,190