respuesta_equivalencia

  • Descripción :

El conjunto de datos de equivalencia de respuesta contiene calificaciones humanas sobre predicciones de modelos de varios modelos en el conjunto de datos SQuAD. Las calificaciones establecen si la respuesta pronosticada es 'equivalente' a la respuesta dorada (teniendo en cuenta tanto la pregunta como el contexto).

Más específicamente, por 'equivalente' queremos decir que la respuesta predicha contiene al menos la misma información que la respuesta dorada y no agrega información superflua. El conjunto de datos contiene anotaciones para: * predicciones de BiDAF en SQuAD dev * predicciones de XLNet en SQuAD dev * predicciones de Luke en SQuAD dev * predicciones de Albert en SQuAD ejemplos de entrenamiento, desarrollo y prueba

Separar Ejemplos
'ae_dev' 4,446
'ae_test' 9,724
'dev_bidaf' 7,522
'dev_luke' 4,590
'dev_xlnet' 7,932
'train' 9,090
  • Estructura de características :
FeaturesDict({
    'candidate': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'gold_index': tf.int32,
    'qid': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'question_1': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=tf.int64, num_classes=3),
    'reference': Text(shape=(), dtype=tf.string),
    'score': tf.float32,
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
candidato Texto tf.cadena
contexto Texto tf.cadena
índice_oro Tensor tf.int32
qid Texto tf.cadena
pregunta Texto tf.cadena
Pregunta 1 Etiqueta de clase tf.int64
Pregunta 2 Etiqueta de clase tf.int64
Pregunta 3 Etiqueta de clase tf.int64
pregunta_4 Etiqueta de clase tf.int64
referencia Texto tf.cadena
puntaje Tensor tf.float32
  • Cita :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}