preguntas_naturales

  • Descripción :

El corpus de NQ contiene preguntas de usuarios reales y requiere que los sistemas de control de calidad lean y comprendan un artículo completo de Wikipedia que puede o no contener la respuesta a la pregunta. La inclusión de preguntas de usuarios reales y el requisito de que las soluciones deban leer una página completa para encontrar la respuesta hacen que NQ sea una tarea más realista y desafiante que los conjuntos de datos de control de calidad anteriores.

Separar Ejemplos
'train' 307,373
'validation' 7,830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

preguntas_naturales/predeterminado (configuración predeterminada)

  • Descripción de la configuración : configuración predeterminada de preguntas naturales

  • Tamaño del conjunto de datos : 90.26 GiB

  • Estructura de características :

FeaturesDict({
    'annotations': Sequence({
        'id': tf.string,
        'long_answer': FeaturesDict({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
        }),
        'short_answers': Sequence({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
            'text': Text(shape=(), dtype=tf.string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'tokens': Sequence({
            'is_html': tf.bool,
            'token': Text(shape=(), dtype=tf.string),
        }),
        'url': Text(shape=(), dtype=tf.string),
    }),
    'id': tf.string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=tf.string),
        'tokens': Sequence(tf.string),
    }),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
anotaciones Secuencia
anotaciones/identificación Tensor tf.cadena
anotaciones/respuesta_larga CaracterísticasDict
anotaciones/respuesta_larga/byte_final Tensor tf.int64
anotaciones/respuesta_larga/token_final Tensor tf.int64
anotaciones/respuesta_larga/byte_de_inicio Tensor tf.int64
anotaciones/respuesta_larga/token_de_inicio Tensor tf.int64
anotaciones/respuestas_cortas Secuencia
anotaciones/breve_respuestas/final_byte Tensor tf.int64
anotaciones/breve_respuestas/end_token Tensor tf.int64
anotaciones/breve_respuestas/start_byte Tensor tf.int64
anotaciones/breve_respuestas/start_token Tensor tf.int64
anotaciones/respuestas_cortas/texto Texto tf.cadena
anotaciones/sí_no_respuesta Etiqueta de clase tf.int64
documento CaracterísticasDict
documento/html Texto tf.cadena
titulo del documento Texto tf.cadena
documento/fichas Secuencia
documento/fichas/es_html Tensor tf.bool
documento/fichas/fichas Texto tf.cadena
documento/url Texto tf.cadena
identificación Tensor tf.cadena
pregunta CaracterísticasDict
pregunta/texto Texto tf.cadena
pregunta/fichas Secuencia (tensor) (Ninguna,) tf.cadena

preguntas_naturales/longt5

  • Descripción de la configuración : preguntas naturales preprocesadas como en el benchmark longT5

  • Tamaño del conjunto de datos : 8.91 GiB

  • Estructura de características :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
    'answer': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
todas_respuestas Secuencia (Texto) (Ninguna,) tf.cadena
responder Texto tf.cadena
contexto Texto tf.cadena
identificación Texto tf.cadena
pregunta Texto tf.cadena
título Texto tf.cadena