Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

xquad

  • opis:

XQuAD (Cross-lingual Question Answering Dataset) to zestaw danych porównawczych do oceny wydajności odpowiedzi na pytania w wielu językach. Zbiór danych składa się z podzbioru 240 akapitów i 1190 par pytań i odpowiedzi z zestawu rozwojowego SQuAD v1.1 (Rajpurkar i in., 2016) wraz z ich profesjonalnymi tłumaczeniami na dziesięć języków: hiszpański, niemiecki, grecki, rosyjski, turecki , arabski, wietnamski, tajski, chiński i hindi. W związku z tym zestaw danych jest całkowicie równoległy w 11 językach. Aby uruchomić XQuAD w domyślnym ustawieniem zerowym-shot, użyj szkoleniowe v1.1 i walidacji danych Squad tutaj: https://www.tensorflow.org/datasets/catalog/squad

Uwzględniamy również podziały „translate-train”, „translate-dev” i „translate-test” dla każdego języka innego niż angielski z XTREME (Hu i in., 2020). Można ich użyć do uruchomienia XQuAD w ustawieniach „translate-train” lub „translate-test”.

  • Strona domowa: https://github.com/deepmind/xquad

  • Kod źródłowy: tfds.question_answering.Xquad

  • wersje:

    • 3.0.0 (domyślnie): Usunięto problem z licznych przykładów, gdzie przęsła odpowiedź są wyrównane ze względu na kontekst usuwania white-space. Ta zmiana dotyczy około 14% przykładów testowych.
  • Cechy:

FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (konfiguracja domyślna)

  • Opis config: XQuAD 'ar' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 420.97 MiB

  • Zbiór danych rozmiar: 134.83 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 541
'translate-test' 1151
'translate-train' 86 787

xquad/de

  • Opis config: (. Hu et al, 2020) XQuAD 'de' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme.

  • Wielkość pliku: 127.04 MiB

  • Zbiór danych rozmiar: 98.80 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 371
'translate-test' 1168
'translate-train' 82 603

xquad/el

  • Opis config: XQuAD 'El' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 499.40 MiB

  • Zbiór danych rozmiar: 157.90 MiB

  • Auto-buforowane ( dokumentacja , tylko gdy Tak (testy, translate-dev, tłumaczyć-test):) shuffle_files=False (translate-pociąg)

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10100
'translate-test' 1182
'translate-train' 79,946

xquad/es

  • Opis config: test podzielone XQuAD 'es', z rozłamów przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 138.41 MiB

  • Zbiór danych rozmiar: 104.96 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 566
'translate-test' 1188
'translate-train' 87 488

xquad/hi

  • Opis konfiguracji: 'Hi' test porównawczy XQuAD z dzieli urządzenie translacji translate-pociąg / translate-dev / tłumaczą badanego z XTREME (Hu i wsp, 2020)..

  • Wielkość pliku: 472.23 MiB

  • Zbiór danych rozmiar: 207.85 MiB

  • Auto-buforowane ( dokumentacja , tylko gdy Tak (testy, translate-dev, tłumaczyć-test):) shuffle_files=False (translate-pociąg)

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 536
'translate-test' 1184
'translate-train' 85 804

xquad/ru

  • Opis config: XQuAD 'ru' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 513.80 MiB

  • Zbiór danych rozmiar: 159.38 MiB

  • Auto-buforowane ( dokumentacja , tylko gdy Tak (testy, translate-dev, tłumaczyć-test):) shuffle_files=False (translate-pociąg)

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 469
'translate-test' 1190
'translate-train' 84 869

xquad/th

  • Opis config: XQuAD 'th' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 461.54 MiB

  • Zbiór danych rozmiar: 199.57 MiB

  • Auto-buforowane ( dokumentacja , tylko gdy Tak (testy, translate-dev, tłumaczyć-test):) shuffle_files=False (translate-pociąg)

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 516
'translate-test' 1157
'translate-train' 85 846

xquad/tr

  • Opis config: XQuAD 'tr' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 151.08 MiB

  • Zbiór danych rozmiar: 97.56 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 535
'translate-test' 1,112
'translate-train' 86 511

xquad/vi

  • Opis config: (. Hu et al, 2020) XQuAD 'vi' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme.

  • Wielkość pliku: 218.09 MiB

  • Zbiór danych rozmiar: 120.03 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 555
'translate-test' 1178
'translate-train' 87,187

xquad/zh

  • Opis config: XQuAD 'pl' test split, ze szczelinami przetłumaczony maszynowo translate-pociąg / translate-dev / translate-badawczych z Xtreme (Hu et al, 2020)..

  • Wielkość pliku: 174.57 MiB

  • Zbiór danych rozmiar: 80.79 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190
'translate-dev' 10 475
'translate-test' 1,186
'translate-train' 85 700

xquad/pl

  • Opis config: XQuAD 'pl' test podzielone.

  • Wielkość pliku: 595.10 KiB

  • Zestaw danych rozmiar: 1.19 MiB

  • Auto-buforowane ( dokumentacja ): Tak

  • dzieli:

Podział Przykłady
'test' 1190