trivia_qa

  • Descripción :

TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.

Separar Ejemplos
'test' 10,832
'train' 87,622
'validation' 11,313
  • Estructura de características :
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
responder CaracterísticasDict
respuesta/alias Secuencia (Texto) (Ninguna,) tf.cadena
respuesta/matched_wiki_entity_name Texto tf.cadena
respuesta/normalized_aliases Secuencia (Texto) (Ninguna,) tf.cadena
respuesta/normalized_matched_wiki_entity_name Texto tf.cadena
respuesta/valor_normalizado Texto tf.cadena
responder/escribir Texto tf.cadena
respuesta/valor Texto tf.cadena
entidades_paginas Secuencia
entidad_páginas/doc_fuente Texto tf.cadena
entidad_páginas/nombre de archivo Texto tf.cadena
entidad_páginas/título Texto tf.cadena
entidad_páginas/wiki_contexto Texto tf.cadena
pregunta Texto tf.cadena
pregunta_id Texto tf.cadena
pregunta_origen Texto tf.cadena
Resultados de la búsqueda Secuencia
resultados_de_búsqueda/descripción Texto tf.cadena
resultados_de_búsqueda/nombre de archivo Texto tf.cadena
resultados_de_búsqueda/clasificación Tensor tf.int32
resultados_de_búsqueda/contexto_de_búsqueda Texto tf.cadena
resultados_de_búsqueda/título Texto tf.cadena
resultados_de_búsqueda/url Texto tf.cadena
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (configuración predeterminada)

  • Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.

trivia_qa/rc.nocontext

  • Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.

trivia_qa/sin filtrar

  • Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.

trivia_qa/sin filtrar.nocontext

  • Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.