equipo

  • Descripción :

El conjunto de datos de respuesta a preguntas de Stanford (SQuAD) es un conjunto de datos de comprensión de lectura, que consiste en preguntas planteadas por trabajadores colectivos en un conjunto de artículos de Wikipedia, donde la respuesta a cada pregunta es un segmento de texto, o lapso, del pasaje de lectura correspondiente, o la pregunta. podría ser incontestable.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

escuadrón/v1.1 (configuración predeterminada)

  • Descripción de la configuración : Versión 1.1.0 de SQUAD

  • Tamaño de la descarga : 33.51 MiB

  • Tamaño del conjunto de datos : 94.06 MiB

  • Almacenamiento automático en caché ( documentación ): Sí

  • Divisiones :

Separar Ejemplos
'train' 87,599
'validation' 10,570
  • Estructura de características :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
respuestas Secuencia
respuestas/answer_start Tensor int32
respuestas/texto Texto cuerda
contexto Texto cuerda
identificación Tensor cuerda
pregunta Texto cuerda
título Texto cuerda

equipo/v2.0

  • Descripción de la configuración : Versión 2.0.0 de SQUAD

  • Tamaño de la descarga : 44.34 MiB

  • Tamaño del conjunto de datos : 148.54 MiB

  • Almacenamiento automático en caché ( documentación ): Sí (validación), solo cuando shuffle_files=False (tren)

  • Divisiones :

Separar Ejemplos
'train' 130,319
'validation' 11,873
  • Estructura de características :
FeaturesDict({
    'answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'context': Text(shape=(), dtype=string),
    'id': string,
    'is_impossible': bool,
    'plausible_answers': Sequence({
        'answer_start': int32,
        'text': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
respuestas Secuencia
respuestas/answer_start Tensor int32
respuestas/texto Texto cuerda
contexto Texto cuerda
identificación Tensor cuerda
es imposible Tensor bool
respuestas_plausibles Secuencia
plausible_answers/answer_start Tensor int32
respuestas_plausibles/texto Texto cuerda
pregunta Texto cuerda
título Texto cuerda