O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

tydi_qa

  • Descrição:

TyDi QA é um conjunto de dados de resposta a perguntas que cobre 11 línguas tipologicamente diversas com 204 mil pares de perguntas e respostas. Os idiomas do TyDi QA são diversos em relação à sua tipologia - o conjunto de características linguísticas que cada idioma expressa - de modo que esperamos que os modelos com bom desempenho nesse conjunto generalizem para um grande número de idiomas no mundo. Ele contém fenômenos de linguagem que não seriam encontrados em corpora somente em inglês. Para fornecer uma tarefa realista de busca de informações e evitar efeitos de preparação, as perguntas são escritas por pessoas que querem saber a resposta, mas ainda não sabem a resposta (ao contrário do SQuAD e seus descendentes) e os dados são coletados diretamente em cada idioma sem o uso de tradução (ao contrário de MLQA e XQuAD).

Divisões de treinamento:

'trem': Esta é a tarefa GoldP do artigo original TyDi QA [ https://arxiv.org/abs/2003.05002 ] que tem dados de treinamento originais em língua rotulados.

'* traduzir-for-': Estas divisões são as traduções automáticas de Inglês para cada idioma-alvo utilizado nas linhas de base traduzir-trem no papel XTREME [ https://arxiv.org/abs/2003.11080 ]. Isso ignora propositalmente os dados de treinamento TyDiQA-GoldP em outros idiomas para simular o cenário de aprendizagem de transferência onde os dados do idioma original não estão disponíveis e os criadores de sistemas devem contar com dados rotulados em inglês mais os sistemas de tradução automática existentes.

Normalmente, você deve usar o trem ou a divisão translado-trem, mas não ambos.

Dividir Exemplos
'train' 49.881
'translate-train-ar' 3.661
'translate-train-bn' 3.585
'translate-train-fi' 3.670
'translate-train-id' 3.667
'translate-train-ko' 3.607
'translate-train-ru' 3.394
'translate-train-sw' 3.622
'translate-train-te' 3.658
'validation' 5.077
'validation-ar' 921
'validation-bn' 113
'validation-en' 440
'validation-fi' 782
'validation-id' 565
'validation-ko' 276
'validation-ru' 812
'validation-sw' 499
'validation-te' 669
  • Características:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • citação:
@article{tydiqa,
   title = {TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages},
  author = {Jonathan H. Clark and Eunsol Choi and Michael Collins and Dan Garrette and Tom Kwiatkowski and Vitaly Nikolaev and Jennimaria Palomaki}
    year = {2020},
 journal = {Transactions of the Association for Computational Linguistics}
}

tydi_qa / goldp (configuração padrão)