Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

tydi_qa

  • Описание:

TyDi QA - это набор данных с ответами на вопросы, охватывающий 11 типологически различных языков с 204 000 пар вопросов и ответов. Языки TyDi QA различаются по своей типологии - набору лингвистических функций, которые выражает каждый язык, - поэтому мы ожидаем, что модели, хорошо работающие на этом наборе, будут обобщаться на большом количестве языков мира. Он содержит языковые феномены, которых нет в корпусах только на английском языке. Чтобы обеспечить реалистичную задачу поиска информации и избежать эффектов прайминга, вопросы пишут люди, которые хотят знать ответ, но еще не знают ответа (в отличие от SQuAD и его потомков), и данные собираются непосредственно на каждом языке. без использования перевода (в отличие от MLQA и XQuAD).

Тренировочные шпагаты:

«поезд»: Это GoldP задача из оригинального TyDi QA бумаги [ https://arxiv.org/abs/2003.05002 ] , который имеет оригинальный язык меченых данных обучения.

"перевести-train- *: Эти расколы являются автоматическими переводы с английского на каждый целевом язык , используемом в переводе цуг исходных условиях в XTREME работе [ https://arxiv.org/abs/2003.11080 ]. Это целенаправленно игнорирует неанглийские данные обучения TyDiQA-GoldP для моделирования сценария передачи обучения, когда данные на исходном языке недоступны, а сборщики систем должны полагаться на данные с пометкой на английском языке и существующие системы машинного перевода.

Как правило, следует использовать ЛИБО поезд или разделение поезда на перевод, но не то и другое вместе.

Расколоть Примеры
'train' 49 881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3 670
'translate-train-id' 3,667
'translate-train-ko' 3 607
'translate-train-ru' 3 394
'translate-train-sw' 3 622
'translate-train-te' 3 658
'validation' 5 077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Особенности:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Образец цитирования:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (конфигурация по умолчанию)