Ayuda a proteger la Gran Barrera de Coral con TensorFlow en Kaggle Únete Challenge

tydi_qa

  • Descripción:

TyDi QA es un conjunto de datos de respuesta a preguntas que cubre 11 idiomas tipológicamente diversos con 204.000 pares de preguntas y respuestas. Los idiomas de TyDi QA son diversos con respecto a su tipología, el conjunto de características lingüísticas que expresa cada idioma, de modo que esperamos que los modelos que funcionan bien en este conjunto se generalicen en una gran cantidad de idiomas en el mundo. Contiene fenómenos del lenguaje que no se encontrarían en corpus de solo inglés. Para proporcionar una tarea de búsqueda de información realista y evitar efectos de cebado, las preguntas las escriben personas que quieren saber la respuesta, pero aún no saben la respuesta (a diferencia de SQuAD y sus descendientes) y los datos se recopilan directamente en cada idioma. sin el uso de traducción (a diferencia de MLQA y XQuAD).

Divisiones de entrenamiento:

'tren': Esta es la tarea GoldP del artículo original TyDi QA [ https://arxiv.org/abs/2003.05002 ] que tiene datos de entrenamiento en idioma original, etiquetados.

'* translate-forma-': Estas divisiones son las traducciones automáticas de Inglés a cada idioma de destino utilizado en las líneas de base translate-tren en el documento XTREME [ https://arxiv.org/abs/2003.11080 ]. Esto ignora intencionalmente los datos de entrenamiento TyDiQA-GoldP que no están en inglés para simular el escenario de aprendizaje de transferencia donde los datos en el idioma original no están disponibles y los desarrolladores de sistemas deben confiar en los datos etiquetados en inglés más los sistemas de traducción automática existentes.

Por lo general, debe usar la división tren o traducir-tren, pero no ambas.

Separar Ejemplos de
'train' 49,881
'translate-train-ar' 3,661
'translate-train-bn' 3,585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5,077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • características:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Cita:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (configuración predeterminada)