- Descripción :
TriviaqQA es un conjunto de datos de comprensión de lectura que contiene más de 650 000 triples de preguntas, respuestas y pruebas. TriviaqQA incluye 95 000 pares de preguntas y respuestas creados por entusiastas de las trivias y documentos de evidencia recopilados de forma independiente, seis por pregunta en promedio, que brindan supervisión a distancia de alta calidad para responder las preguntas.
Página de inicio: http://nlp.cs.washington.edu/triviaqa/
Código fuente :
tfds.question_answering.TriviaQA
Versiones :
-
1.1.0
(predeterminado): Sin notas de la versión.
-
Tamaño de descarga :
Unknown size
Tamaño del conjunto de datos :
119.78 MiB
Almacenamiento automático en caché ( documentación ): Sí
Divisiones :
Separar | Ejemplos |
---|---|
'test' | 10,832 |
'train' | 87,622 |
'validation' | 11,313 |
- Estructura de características :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=tf.string)),
'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_value': Text(shape=(), dtype=tf.string),
'type': Text(shape=(), dtype=tf.string),
'value': Text(shape=(), dtype=tf.string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'wiki_context': Text(shape=(), dtype=tf.string),
}),
'question': Text(shape=(), dtype=tf.string),
'question_id': Text(shape=(), dtype=tf.string),
'question_source': Text(shape=(), dtype=tf.string),
'search_results': Sequence({
'description': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'rank': tf.int32,
'search_context': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
}),
})
- Documentación de características :
Rasgo | Clase | Forma | Tipo D | Descripción |
---|---|---|---|---|
CaracterísticasDict | ||||
responder | CaracterísticasDict | |||
respuesta/alias | Secuencia (Texto) | (Ninguna,) | tf.cadena | |
respuesta/matched_wiki_entity_name | Texto | tf.cadena | ||
respuesta/normalized_aliases | Secuencia (Texto) | (Ninguna,) | tf.cadena | |
respuesta/normalized_matched_wiki_entity_name | Texto | tf.cadena | ||
respuesta/valor_normalizado | Texto | tf.cadena | ||
responder/escribir | Texto | tf.cadena | ||
respuesta/valor | Texto | tf.cadena | ||
entidades_paginas | Secuencia | |||
entidad_páginas/doc_fuente | Texto | tf.cadena | ||
entidad_páginas/nombre de archivo | Texto | tf.cadena | ||
entidad_páginas/título | Texto | tf.cadena | ||
entidad_páginas/wiki_contexto | Texto | tf.cadena | ||
pregunta | Texto | tf.cadena | ||
pregunta_id | Texto | tf.cadena | ||
pregunta_origen | Texto | tf.cadena | ||
Resultados de la búsqueda | Secuencia | |||
resultados_de_búsqueda/descripción | Texto | tf.cadena | ||
resultados_de_búsqueda/nombre de archivo | Texto | tf.cadena | ||
resultados_de_búsqueda/clasificación | Tensor | tf.int32 | ||
resultados_de_búsqueda/contexto_de_búsqueda | Texto | tf.cadena | ||
resultados_de_búsqueda/título | Texto | tf.cadena | ||
resultados_de_búsqueda/url | Texto | tf.cadena |
Claves supervisadas (Ver
as_supervised
doc ):None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
trivia_qa/rc (configuración predeterminada)
- Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta. Incluye contexto de Wikipedia y resultados de búsqueda.
trivia_qa/rc.nocontext
- Descripción de la configuración : Pares de pregunta-respuesta donde todos los documentos para una pregunta determinada contienen la(s) cadena(s) de respuesta.
trivia_qa/sin filtrar
- Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR. Incluye contexto de Wikipedia y resultados de búsqueda.
trivia_qa/sin filtrar.nocontext
- Descripción de la configuración : 110 000 pares de preguntas y respuestas para control de calidad de dominio abierto donde no todos los documentos para una pregunta dada contienen las cadenas de respuesta. Esto hace que el conjunto de datos sin filtrar sea más apropiado para el control de calidad de estilo IR.