O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

Esquadrão

  • Descrição:

O conjunto de dados de resposta a perguntas de Stanford (SQuAD) é um conjunto de dados de compreensão de leitura, que consiste em perguntas feitas por crowdworkers em um conjunto de artigos da Wikipedia, onde a resposta para cada pergunta é um segmento de texto, ou extensão, da passagem de leitura correspondente, ou a pergunta pode ser irrespondível.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

esquadrão / v1.1 (configuração padrão)

  • A inscrição Config: Versão 1.1.0 do SQUAD

  • Tamanho do download: 33.51 MiB

  • Dataset tamanho: 94.06 MiB

  • Cache-Auto ( documentação ): Sim

  • desdobramentos:

Dividir Exemplos
'train' 87.599
'validation' 10.570
  • Características:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

esquadrão / v2.0

  • A inscrição Config: Versão 2.0.0 do SQUAD

  • Tamanho do download: 44.34 MiB

  • Dataset size: 148.54 MiB

  • Cache-Auto ( documentação ): Sim (validação), Só quando shuffle_files=False (trem)

  • desdobramentos:

Dividir Exemplos
'train' 130.319
'validation' 11.873
  • Características:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'is_impossible': tf.bool,
    'plausible_answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})