Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

esquadrão

Descrição :

Stanford Question Answering Dataset (SQuAD) é um conjunto de dados de compreensão de leitura, que consiste em perguntas feitas por crowdworkers em um conjunto de artigos da Wikipedia, onde a resposta para cada pergunta é um segmento de texto, ou extensão, da passagem de leitura correspondente, ou a pergunta pode ser irrespondível.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://rajpurkar.github.io/SQuAD-explorer/
Código -fonte: tfds.datasets.squad.Builder
Versões :
- 3.0.0 (padrão): Corrige o problema com um pequeno número de exemplos (19) em que os intervalos de resposta estão desalinhados devido à remoção de espaço em branco do contexto.
Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não compatível.
Citação :

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

squad/v1.1 (configuração padrão)

Descrição da configuração : Versão 1.1.0 do SQUAD
Tamanho do download : 33.51 MiB
Tamanho do conjunto de dados : 94.06 MiB
Cache automático ( documentação ): Sim
Divisões :

Dividir	Exemplos
`'train'`	87.599
`'validation'`	10.570

Estrutura de recursos :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
respostas	Seqüência
respostas/resposta_início	tensor	int32
respostas/texto	Texto	corda
contexto	Texto	corda
Eu iria	tensor	corda
pergunta	Texto	corda
título	Texto	corda

Exemplos ( tfds.as_dataframe ):

esquadrão/v2.0

Descrição da configuração : Versão 2.0.0 do SQUAD
Tamanho do download : 44.34 MiB
Tamanho do conjunto de dados : 148.54 MiB
Armazenado automaticamente em cache ( documentação ): Sim (validação), somente quando shuffle_files=False (train)
Divisões :

Dividir	Exemplos
`'train'`	130.319
`'validation'`	11.873

Estrutura de recursos :

FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'is_impossible': bool,
    'plausible_answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Documentação do recurso:

Característica	Classe	Tipo D
	RecursosDict
respostas	Seqüência
respostas/resposta_início	tensor	int32
respostas/texto	Texto	corda
contexto	Texto	corda
Eu iria	tensor	corda
é impossível	tensor	bool
plausible_answers	Seqüência
plausible_answers/answer_start	tensor	int32
plausible_answers/text	Texto	corda
pergunta	Texto	corda
título	Texto	corda

Exemplos ( tfds.as_dataframe ):

esquadrão Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

squad/v1.1 (configuração padrão)

esquadrão/v2.0

esquadrão