- Описание:
TyDi QA - это набор данных с ответами на вопросы, охватывающий 11 типологически различных языков с 204 000 пар вопросов и ответов. Языки TyDi QA различаются по своей типологии - набору лингвистических функций, которые выражает каждый язык, - поэтому мы ожидаем, что модели, хорошо работающие на этом наборе, будут обобщаться на большом количестве языков мира. Он содержит языковые феномены, которых нет в корпусах только на английском языке. Чтобы обеспечить реалистичную задачу поиска информации и избежать эффектов прайминга, вопросы пишут люди, которые хотят знать ответ, но еще не знают ответа (в отличие от SQuAD и его потомков), и данные собираются непосредственно на каждом языке. без использования перевода (в отличие от MLQA и XQuAD).
Тренировочные шпагаты:
«поезд»: Это GoldP задача из оригинального TyDi QA бумаги [ https://arxiv.org/abs/2003.05002 ] , который имеет оригинальный язык меченых данных обучения.
"перевести-train- *: Эти расколы являются автоматическими переводы с английского на каждый целевом язык , используемом в переводе цуг исходных условиях в XTREME работе [ https://arxiv.org/abs/2003.11080 ]. Это целенаправленно игнорирует неанглийские данные обучения TyDiQA-GoldP для моделирования сценария передачи обучения, когда данные на исходном языке недоступны, а сборщики систем должны полагаться на данные с пометкой на английском языке и существующие системы машинного перевода.
Как правило, следует использовать ЛИБО поезд или разделение поезда на перевод, но не то и другое вместе.
Описание Config: Золотой проход (GoldP) задача ( https://github.com/google-research-datasets/tydiqa/tree/master/gold_passage_baseline ).
Домашняя страница: https://github.com/google-research-datasets/tydiqa
Исходный код:
tfds.question_answering.TydiQA
Версии:
-
3.0.0
( по умолчанию): Исправлена ошибка с количеством примеров , когда ответ пролеты смещаются под действием контекста удаления белого пространства. Это изменение коснулось примерно 25% примеров обучения и разработки.
-
Скачать Размер:
121.30 MiB
Dataset Размер:
98.35 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'train' | 49 881 |
'translate-train-ar' | 3,661 |
'translate-train-bn' | 3,585 |
'translate-train-fi' | 3 670 |
'translate-train-id' | 3,667 |
'translate-train-ko' | 3 607 |
'translate-train-ru' | 3 394 |
'translate-train-sw' | 3 622 |
'translate-train-te' | 3 658 |
'validation' | 5 077 |
'validation-ar' | 921 |
'validation-bn' | 113 |
'validation-en' | 440 |
'validation-fi' | 782 |
'validation-id' | 565 |
'validation-ko' | 276 |
'validation-ru' | 812 |
'validation-sw' | 499 |
'validation-te' | 669 |
- Особенности:
FeaturesDict({
'answers': Sequence({
'answer_start': tf.int32,
'text': Text(shape=(), dtype=tf.string),
}),
'context': Text(shape=(), dtype=tf.string),
'id': tf.string,
'question': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@article{tydiqa,
title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
year = {2020},
journal = {Transactions of the Association for Computational Linguistics}
}