answer_equivalence

  • 説明:

Answer Equivalence Dataset には、SQuAD データセットの複数のモデルからのモデル予測に対する人間の評価が含まれています。評価は、予測された回答が金の回答と「同等」であるかどうかを確立します (質問とコンテキストの両方を考慮して)。

より具体的には、「同等」とは、予測された回答に少なくとも最高の回答と同じ情報が含まれており、余分な情報が追加されていないことを意味します。データセットには次の注釈が含まれています。 * SQuAD dev での BiDAF からの予測 * SQuAD dev での XLNet からの予測 * SQuAD dev での Luke からの予測 * SQuAD トレーニング、開発、およびテストの例での Albert からの予測

スプリット
'ae_dev' 4,446
'ae_test' 9,724
'dev_bidaf' 7,522
'dev_luke' 4,590
'dev_xlnet' 7,932
'train' 9,090
  • 機能構造:
FeaturesDict({
    'candidate': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'gold_index': int32,
    'qid': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'question_1': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_2': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_3': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'question_4': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'reference': Text(shape=(), dtype=string),
    'score': float32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
候補者文章ストリング
環境文章ストリング
ゴールドインデックステンソルint32
キッド文章ストリング
質問文章ストリング
質問1クラスラベルint64
質問2クラスラベルint64
質問_3クラスラベルint64
質問_4クラスラベルint64
参照文章ストリング
スコアテンソルfloat32
  • 引用
@article{bulian-etal-2022-tomayto,
      title={Tomayto, Tomahto. Beyond Token-level Answer Equivalence for Question Answering Evaluation},
      author={Jannis Bulian and Christian Buck and Wojciech Gajewski and Benjamin Boerschinger and Tal Schuster},
      year={2022},
      eprint={2202.07654},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}