xquad

  • Descriptif :

XQuAD (Cross-lingual Question Answering Dataset) est un ensemble de données de référence pour évaluer les performances de réponse aux questions multilingues. L'ensemble de données se compose d'un sous-ensemble de 240 paragraphes et 1190 paires de questions-réponses de l'ensemble de développement de SQuAD v1.1 (Rajpurkar et al., 2016) ainsi que leurs traductions professionnelles en dix langues : espagnol, allemand, grec, russe, turc , arabe, vietnamien, thaï, chinois et hindi. Par conséquent, l'ensemble de données est entièrement parallèle dans 11 langues. Pour exécuter XQuAD dans le paramètre zéro-shot par défaut, utilisez les données de formation et de validation SQuAD v1.1 ici : https://www.tensorflow.org/datasets/catalog/squad

Nous incluons également les divisions "translate-train", "translate-dev" et "translate-test" pour chaque langue non anglaise de XTREME (Hu et al., 2020). Ceux-ci peuvent être utilisés pour exécuter XQuAD dans les paramètres "translate-train" ou "translate-test".

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
réponses Séquence
réponses/answer_start Tenseur int32
réponses/texte Texte chaîne de caractères
le contexte Texte chaîne de caractères
identifiant Tenseur chaîne de caractères
question Texte chaîne de caractères
Titre Texte chaîne de caractères
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (configuration par défaut)

  • Description de la configuration : fractionnement de test XQuAD 'ar', avec traduction automatique des fractionnements translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 420.97 MiB

  • Taille du jeu de données : 134.83 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 541
'translate-test' 1 151
'translate-train' 86 787

xquad/de

  • Description de la configuration : XQuAD 'de' test split, avec les splits translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 127.04 MiB

  • Taille du jeu de données : 98.80 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 371
'translate-test' 1 168
'translate-train' 82 603

xquad/él

  • Description de la configuration : fractionnement de test XQuAD 'el', avec des fractionnements traduits automatiquement translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 499.40 MiB

  • Taille du jeu de données : 157.90 MiB

  • Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque shuffle_files=False (translate-train)

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 100
'translate-test' 1 182
'translate-train' 79 946

xquad/es

  • Description de la configuration : fractionnement de test XQuAD 'es', avec traduction automatique des fractionnements translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 138.41 MiB

  • Taille du jeu de données : 104.96 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 566
'translate-test' 1 188
'translate-train' 87 488

xquad/salut

  • Description de la configuration : fractionnement de test XQuAD 'hi', avec des fractionnements translate-train/translate-dev/translate-test traduits automatiquement de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 472.23 MiB

  • Taille du jeu de données : 207.85 MiB

  • Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque shuffle_files=False (translate-train)

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 536
'translate-test' 1 184
'translate-train' 85 804

xquad/ru

  • Description de la configuration : fractionnement de test XQuAD 'ru', avec des fractionnements translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 513.80 MiB

  • Taille du jeu de données : 159.38 MiB

  • Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque shuffle_files=False (translate-train)

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 469
'translate-test' 1 190
'translate-train' 84 869

xquad/th

  • Description de la configuration : XQuAD 'th' test split, avec les splits translate-train/translate-dev/translate-test traduits automatiquement de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 461.54 MiB

  • Taille du jeu de données : 199.57 MiB

  • Mise en cache automatique ( documentation ): Oui (test, translate-dev, translate-test), uniquement lorsque shuffle_files=False (translate-train)

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 516
'translate-test' 1 157
'translate-train' 85 846

xquad/tr

  • Description de la configuration : XQuAD 'tr' test split, avec les splits translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 151.08 MiB

  • Taille du jeu de données : 97.56 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 535
'translate-test' 1 112
'translate-train' 86 511

xquad/vi

  • Description de la configuration : fractionnement de test XQuAD 'vi', avec des fractionnements translate-train/translate-dev/translate-test traduits par machine de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 218.09 MiB

  • Taille du jeu de données : 120.03 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 555
'translate-test' 1 178
'translate-train' 87 187

xquad/zh

  • Description de la configuration : fractionnement de test XQuAD 'zh', avec des fractionnements traduits automatiquement translate-train/translate-dev/translate-test de XTREME (Hu et al., 2020).

  • Taille du téléchargement : 174.57 MiB

  • Taille du jeu de données : 80.79 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190
'translate-dev' 10 475
'translate-test' 1 186
'translate-train' 85 700

xquad/fr

  • Description de la configuration : XQuAD 'en' test split.

  • Taille du téléchargement : 595.10 KiB

  • Taille du jeu de données : 1.19 MiB

  • Mise en cache automatique ( documentation ): Oui

  • Fractionnements :

Diviser Exemples
'test' 1 190