xquad

  • Description:

XQuAD (Cross-lingual Question Answering Dataset) est un ensemble de données de référence pour évaluer les performances de réponse aux questions multilingues. L'ensemble de données se compose d'un sous-ensemble de 240 paragraphes et de 1190 paires de questions-réponses de l'ensemble de développement de SQuAD v1.1 (Rajpurkar et al., 2016) ainsi que de leurs traductions professionnelles en dix langues : espagnol, allemand, grec, russe, turc , arabe, vietnamien, thaï, chinois et hindi. Par conséquent, l'ensemble de données est entièrement parallèle dans 11 langues. Pour exécuter XQuad dans le paramètre par défaut zéro-shot, utilisez la formation et les données V1.1 SQUAD validation ici: https://www.tensorflow.org/datasets/catalog/squad

Nous incluons également les fractionnements "translate-train", "translate-dev" et "translate-test" pour chaque langue non anglaise de XTREME (Hu et al., 2020). Ceux-ci peuvent être utilisés pour exécuter XQuAD dans les paramètres "translate-train" ou "translate-test".

  • Page d' accueil: https://github.com/deepmind/xquad

  • Code source: tfds.question_answering.Xquad

  • versions:

    • 3.0.0 (par défaut): Correction problème avec un certain nombre d'exemples où des durées de réponse sont mal alignées en raison du contexte suppression des espaces blancs. Ce changement a un impact sur environ 14 % des exemples de test.
  • Caractéristiques:

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (configuration par défaut)

  • Description Config: XQuad 'ar' split test, avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 420.97 MiB

  • Dataset Taille: 134.83 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 541
'translate-test' 1 151
'translate-train' 86 787

xquad/de

  • Description Config: (. Hu et al, 2020) XQuad 'de' split test, avec machine traduit translate-train / translate-dev / scissions-tests traduire de XTREME.

  • Taille du téléchargement: 127.04 MiB

  • Dataset Taille: 98.80 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 371
'translate-test' 1 168
'translate-train' 82 603

xquad/el

  • Description Config: XQuad split test 'el', avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 499.40 MiB

  • Dataset Taille: 157.90 MiB

  • Auto-cache ( documentation ): Oui (test, traduisez-dev, traduisez-test), seulement quand shuffle_files=False (translate-train)

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 100
'translate-test' 1 182
'translate-train' 79 946

xquad/es

  • Description Config: XQuad le split test 'es de, avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 138.41 MiB

  • Dataset Taille: 104.96 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 566
'translate-test' 1 188
'translate-train' 87 488

xquad/salut

  • Description Config: split test 'salut' XQuad, avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 472.23 MiB

  • Dataset Taille: 207.85 MiB

  • Auto-cache ( documentation ): Oui (test, traduisez-dev, traduisez-test), seulement quand shuffle_files=False (translate-train)

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 536
'translate-test' 1 184
'translate-train' 85 804

xquad/ru

  • Description Config: XQuad Test split 'ru', avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 513.80 MiB

  • Dataset Taille: 159.38 MiB

  • Auto-cache ( documentation ): Oui (test, traduisez-dev, traduisez-test), seulement quand shuffle_files=False (translate-train)

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 469
'translate-test' 1 190
'translate-train' 84 869

xquad/ième

  • Description Config: XQuad 'th' split test, avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 461.54 MiB

  • Dataset Taille: 199.57 MiB

  • Auto-cache ( documentation ): Oui (test, traduisez-dev, traduisez-test), seulement quand shuffle_files=False (translate-train)

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 516
'translate-test' 1 157
'translate-train' 85 846

xquad/tr

  • Description Config: XQuad 'tr' split test, avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 151.08 MiB

  • Dataset Taille: 97.56 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 535
'translate-test' 1 112
'translate-train' 86 511

xquad/vi

  • Description Config: (. Hu et al, 2020) XQuad 'vi' split test, avec machine traduit translate-train / translate-dev / scissions-tests traduire de XTREME.

  • Taille du téléchargement: 218.09 MiB

  • Dataset Taille: 120.03 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 555
'translate-test' 1 178
'translate-train' 87 187

xquad/zh

  • Description Config: XQuad 'zh' split test, avec machine traduit translate-train / translate-dev / scissions-tests de traduire XTREME (Hu et al, 2020.).

  • Taille du téléchargement: 174.57 MiB

  • Dataset Taille: 80.79 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190
'translate-dev' 10 475
'translate-test' 1 186
'translate-train' 85 700

xquad/fr

  • Description Config: XQuad split test 'en'.

  • Taille du téléchargement: 595.10 KiB

  • Dataset Taille: 1.19 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'test' 1 190