квадроцикл

  • Описание :

XQuAD (набор данных для ответов на вопросы на разных языках) — это эталонный набор данных для оценки эффективности ответов на вопросы на разных языках. Набор данных состоит из подмножества из 240 абзацев и 1190 пар вопросов-ответов из набора для разработки SQuAD v1.1 (Rajpurkar et al., 2016) вместе с их профессиональными переводами на десять языков: испанский, немецкий, греческий, русский, турецкий. , арабский, вьетнамский, тайский, китайский и хинди. Следовательно, набор данных полностью параллелен для 11 языков. Чтобы запустить XQuAD с настройками нулевого выстрела по умолчанию, используйте данные обучения и проверки SQuAD v1.1 здесь: https://www.tensorflow.org/datasets/catalog/squad .

Мы также включили разделы «перевод-обучение», «перевод-разработка» и «перевод-тест» для каждого языка, отличного от английского, из XTREME (Hu et al., 2020). Их можно использовать для запуска XQuAD в настройках «translate-train» или «translate-test».

  • Дополнительная документация : изучить документы с кодом

  • Домашняя страница : https://github.com/deepmind/xquad

  • Исходный код : tfds.question_answering.Xquad

  • Версии :

    • 3.0.0 (по умолчанию): исправлена ​​проблема с рядом примеров, когда интервалы ответов смещены из-за удаления контекстного пробела. Это изменение затрагивает примерно 14% тестовых примеров.
  • Структура функции :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Учебный класс Форма Dтип Описание
ОсобенностиDict
ответы Последовательность
ответы/answer_start Тензор int32
ответы/текст Текст нить
контекст Текст нить
я бы Тензор нить
вопрос Текст нить
заглавие Текст нить
@article{Artetxe:etal:2019,
      author    = {Mikel Artetxe and Sebastian Ruder and Dani Yogatama},
      title     = {On the cross-lingual transferability of monolingual representations},
      journal   = {CoRR},
      volume    = {abs/1910.11856},
      year      = {2019},
      archivePrefix = {arXiv},
      eprint    = {1910.11856}
}

xquad/ar (конфигурация по умолчанию)

  • Описание конфигурации : XQuAD 'ar' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 420.97 MiB

  • Размер набора данных : 134.83 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 541
'translate-test' 1151
'translate-train' 86 787

xquad/de

  • Описание конфигурации : тестовое разделение XQuAD 'de' с машинно-переведенными разделениями translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 127.04 MiB

  • Размер набора данных : 98.80 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 371
'translate-test' 1168
'translate-train' 82 603

xquad/эл

  • Описание конфигурации : тестовый раздел XQuAD 'el' с машинным переводом разделов translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 499.40 MiB

  • Размер набора данных : 157.90 MiB .

  • Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если shuffle_files=False (перевод-поезд)

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 100
'translate-test' 1182
'translate-train' 79 946

xquad/es

  • Описание конфигурации : тестовый раздел XQuAD 'es' с машинным переводом разделов translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 138.41 MiB

  • Размер набора данных : 104.96 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 566
'translate-test' 1188
'translate-train' 87 488

xquad/привет

  • Описание конфигурации : тест XQuAD «привет» с разделами «перевод-поезд»/перевод-разработчик/перевод-тест из XTREME (Hu et al., 2020).

  • Размер загрузки : 472.23 MiB

  • Размер набора данных : 207.85 MiB .

  • Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если shuffle_files=False (перевод-поезд)

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 536
'translate-test' 1184
'translate-train' 85 804

xquad/ru

  • Описание конфигурации : XQuAD 'ru' тестовое разделение с машинным переводом translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 513.80 MiB

  • Размер набора данных : 159.38 MiB .

  • Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если shuffle_files=False (перевод-поезд)

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 469
'translate-test' 1190
'translate-train' 84 869

xquad/th

  • Описание конфигурации : XQuAD 'th' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 461.54 MiB

  • Размер набора данных : 199.57 MiB .

  • Автоматическое кэширование ( документация ): да (тест, перевод-разработчик, перевод-тест), только если shuffle_files=False (перевод-поезд)

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 516
'translate-test' 1157
'translate-train' 85 846

xquad/tr

  • Описание конфигурации : XQuAD 'tr' test split, с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 151.08 MiB

  • Размер набора данных : 97.56 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 535
'translate-test' 1112
'translate-train' 86 511

xquad/ви

  • Описание конфигурации : XQuAD 'vi' test split, с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 218.09 MiB

  • Размер набора данных : 120.03 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 555
'translate-test' 1178
'translate-train' 87 187

xquad/ж

  • Описание конфигурации : XQuAD 'zh' тестовое разделение с машинно-переведенными разделами translate-train/translate-dev/translate-test из XTREME (Hu et al., 2020).

  • Размер загрузки : 174.57 MiB

  • Размер набора данных : 80.79 MiB .

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190
'translate-dev' 10 475
'translate-test' 1186
'translate-train' 85 700

xquad/en

  • Описание конфигурации : тестовый сплит XQuAD 'en'.

  • Размер загрузки : 595.10 KiB

  • Размер набора данных : 1.19 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплиты :

Расколоть Примеры
'test' 1190