¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

trivia_qa

  • Descripción:

TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650.000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95.000 pares de preguntas y respuestas escritos por entusiastas de las trivia y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.

Separar Ejemplos de
'test' 10,832
'train' 87,622
'validation' 11,313
  • características:
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa / rc (configuración predeterminada)

  • Descripción config: pares de preguntas y respuestas donde todos los documentos para una pregunta dada contienen la cadena de respuesta (s). Incluye contexto de Wikipedia y resultados de búsqueda.

  • Ejemplos ( tfds.as_dataframe ):

trivia_qa / rc.nocontext

  • Descripción config: pares de preguntas y respuestas donde todos los documentos para una pregunta dada contienen la cadena de respuesta (s).

  • Ejemplos ( tfds.as_dataframe ):

trivia_qa / sin filtrar

  • Descripción config: 110k pares pregunta-respuesta para el control de calidad de dominio abierto en el que no todos los documentos para una pregunta dada contienen la cadena de respuesta (s). Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.

  • Ejemplos ( tfds.as_dataframe ):

trivia_qa / unfiltered.nocontext

  • Descripción config: 110k pares pregunta-respuesta para el control de calidad de dominio abierto en el que no todos los documentos para una pregunta dada contienen la cadena de respuesta (s). Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.

  • Ejemplos ( tfds.as_dataframe ):