O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

trivia_qa

  • Descrição:

TriviaqQA é um conjunto de dados de compreensão de leitura que contém mais de 650 mil perguntas-respostas-evidências triplas. O TriviaqQA inclui 95 mil pares de perguntas e respostas de autoria de entusiastas de curiosidades e documentos de evidências coletados de forma independente, seis por pergunta em média, que fornecem supervisão à distância de alta qualidade para responder às perguntas.

Dividir Exemplos
'test' 10.832
'train' 87.622
'validation' 11.313
  • Características:
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa / rc (configuração padrão)

  • A inscrição Config: pares pergunta-resposta, onde todos os documentos para uma determinada questão contêm a string (s) resposta. Inclui contexto da Wikipedia e resultados de pesquisa.

  • Exemplos ( tfds.as_dataframe ):

trivia_qa / rc.nocontext

  • A inscrição Config: pares pergunta-resposta, onde todos os documentos para uma determinada questão contêm a string (s) resposta.

  • Exemplos ( tfds.as_dataframe ):

trivia_qa / não filtrado

  • A inscrição Config: 110k pares pergunta-resposta para QA domínio aberto, onde nem todos os documentos para uma determinada questão conter a string (s) resposta. Isso torna o conjunto de dados não filtrado mais apropriado para o controle de qualidade do tipo IR. Inclui contexto da Wikipedia e resultados de pesquisa.

  • Exemplos ( tfds.as_dataframe ):

trivia_qa / unfiltered.nocontext

  • A inscrição Config: 110k pares pergunta-resposta para QA domínio aberto, onde nem todos os documentos para uma determinada questão conter a string (s) resposta. Isso torna o conjunto de dados não filtrado mais apropriado para o controle de qualidade do tipo IR.

  • Exemplos ( tfds.as_dataframe ):