xquad

 • opis :

XQuAD (Cross-lingual Question Answering Dataset) to zestaw danych porównawczych do oceny wydajności odpowiedzi na pytania w różnych językach. Zbiór danych składa się z podzbioru 240 akapitów i 1190 par pytanie-odpowiedź z zestawu rozwojowego SQuAD v1.1 (Rajpurkar et al., 2016) wraz z ich profesjonalnymi tłumaczeniami na dziesięć języków: hiszpański, niemiecki, grecki, rosyjski, turecki , arabski, wietnamski, tajski, chiński i hindi. W rezultacie zestaw danych jest całkowicie równoległy w 11 językach. Aby uruchomić XQuAD w domyślnym ustawieniu zero-shot, użyj danych treningowych i walidacyjnych SQuAD v1.1 tutaj: https://www.tensorflow.org/datasets/catalog/squad

Uwzględniamy również podziały „translate-train”, „translate-dev” i „translate-test” dla każdego języka innego niż angielski z XTREME (Hu i in., 2020). Można ich użyć do uruchomienia XQuAD w ustawieniach „translate-train” lub „translate-test”.

FeaturesDict({
  'answers': Sequence({
    'answer_start': int32,
    'text': Text(shape=(), dtype=string),
  }),
  'context': Text(shape=(), dtype=string),
  'id': string,
  'question': Text(shape=(), dtype=string),
  'title': Text(shape=(), dtype=string),
})
 • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
odpowiedzi Sekwencja
odpowiedzi/odpowiedź_start Napinacz int32
odpowiedzi/tekst Tekst strunowy
kontekst Tekst strunowy
ID Napinacz strunowy
pytanie Tekst strunowy
tytuł Tekst strunowy
@article{Artetxe:etal:2019,
   author  = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
   title   = {On the cross-lingual transferability of monolingual representations},
   journal  = {CoRR},
   volume  = {abs/1910.11856},
   year   = {2019},
   archivePrefix = {arXiv},
   eprint  = {1910.11856}
}

xquad/ar (domyślna konfiguracja)

 • Opis konfiguracji: Podział testu XQuAD „ar”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 420.97 MiB

 • Rozmiar zestawu danych : 134.83 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10541
'translate-test' 1151
'translate-train' 86787

xquad/de

 • Opis konfiguracji: Podział testu XQuAD „de”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 127.04 MiB

 • Rozmiar zestawu danych : 98.80 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10371
'translate-test' 1168
'translate-train' 82603

xquad/el

 • Opis konfiguracji: Podział testu XQuAD „el”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 499.40 MiB

 • Rozmiar zestawu danych : 157.90 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10100
'translate-test' 1182
'translate-train' 79946

xquad/es

 • Opis konfiguracji: Podział testu XQuAD „es”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 138.41 MiB

 • Rozmiar zestawu danych : 104.96 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10566
'translate-test' 1188
'translate-train' 87 488

xquad/cześć

 • Opis konfiguracji: Podział testu „hi” XQuAD, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 472.23 MiB

 • Rozmiar zestawu danych : 207.85 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10536
'translate-test' 1184
'translate-train' 85804

xquad/ru

 • Opis konfiguracji: Podział testu XQuAD „ru”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 513.80 MiB

 • Rozmiar zestawu danych : 159.38 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10469
'translate-test' 1190
'translate-train' 84 869

xquad/th

 • Opis konfiguracji: XQuAD „th” test split, z przetłumaczonymi maszynowo podziałami translacji pociągu/translate-dev/translate-test z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 461.54 MiB

 • Rozmiar zbioru danych : 199.57 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak (test, translate-dev, translate-test), Tylko wtedy, gdy shuffle_files=False (translate-train)

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10516
'translate-test' 1157
'translate-train' 85846

xquad/tr

 • Opis konfiguracji: Podział testu XQuAD „tr”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 151.08 MiB

 • Rozmiar zestawu danych : 97.56 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10535
'translate-test' 1112
'translate-train' 86511

xquad/vi

 • Opis konfiguracji: Podział testu XQuAD „vi”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 218.09 MiB

 • Rozmiar zestawu danych : 120.03 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10555
'translate-test' 1178
'translate-train' 87187

xquad/zh

 • Opis konfiguracji: Podział testu XQuAD „zh”, z przetłumaczonymi maszynowo podziałami translacji pociągu/tłumaczenia-dev/tłumaczenia-testu z XTREME (Hu i in., 2020).

 • Rozmiar pliku do pobrania : 174.57 MiB

 • Rozmiar zestawu danych : 80.79 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190
'translate-dev' 10475
'translate-test' 1186
'translate-train' 85700

xquad/en

 • Opis konfiguracji: Podział testu XQuAD „en”.

 • Rozmiar pliku do pobrania : 595.10 KiB

 • Rozmiar zestawu danych : 1.19 MiB

 • Automatyczne buforowanie ( dokumentacja ): Tak

 • Podziały :

Rozdzielać Przykłady
'test' 1190