réponse_équivalence

  • Descriptif :

L'ensemble de données d'équivalence de réponse contient des évaluations humaines sur les prédictions de modèles de plusieurs modèles de l'ensemble de données SQuAD. Les notations établissent si la réponse prédite est "équivalente" à la réponse or (en tenant compte à la fois de la question et du contexte).

Plus précisément, par "équivalent", nous entendons que la réponse prédite contient au moins les mêmes informations que la réponse or et n'ajoute pas d'informations superflues. L'ensemble de données contient des annotations pour : * les prédictions de BiDAF sur SQuAD dev * les prédictions de XLNet sur SQuAD dev * les prédictions de Luke sur SQuAD dev * les prédictions d'Albert sur les exemples de formation, de développement et de test SQuAD

Diviser Exemples
'ae_dev' 4 446
'ae_test' 9 724
'dev_bidaf' 7 522
'dev_luke' 4 590
'dev_xlnet' 7 932
'train' 9 090
  • Structure des fonctionnalités :
FeaturesDict({
    'candidate': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'gold_index': int32,
    'qid': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'reference': Text(shape=(), dtype=string),
    'score': float32,
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
candidat Texte chaîne de caractères
le contexte Texte chaîne de caractères
gold_index Tenseur int32
qid Texte chaîne de caractères
question Texte chaîne de caractères
question 1 Étiquette de classe int64
question 2 Étiquette de classe int64
question 3 Étiquette de classe int64
question_4 Étiquette de classe int64
référence Texte chaîne de caractères
score Tenseur float32
  • Citation :
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}