openbookqa

  • 説明:

データセットには、5,957 の 4 択多肢選択問題が含まれています。さらに、5,167 のクラウドソーシングによる一般的な知識の事実と、各質問が元のコア ファクト、人間の正確性スコア、明瞭度スコア、および匿名化されたクラウド ワーカーに関連付けられているトレーニング/開発/テストの質問の拡張バージョンを提供します。 ID。

スプリット
'test' 500
'train' 4,957
'validation' 500
  • 機能構造:
FeaturesDict({
    'answerKey': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'clarity': float32,
    'fact1': Text(shape=(), dtype=string),
    'humanScore': float32,
    'question': FeaturesDict({
        'choice_A': Text(shape=(), dtype=string),
        'choice_B': Text(shape=(), dtype=string),
        'choice_C': Text(shape=(), dtype=string),
        'choice_D': Text(shape=(), dtype=string),
        'stem': Text(shape=(), dtype=string),
    }),
    'turkIdAnonymized': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
解答クラスラベルint64
明瞭さテンソルfloat32
事実1文章ストリング
ヒューマンスコアテンソルfloat32
質問特徴辞書
質問/選択肢_A文章ストリング
質問/選択肢_B文章ストリング
質問/選択肢_C文章ストリング
質問/選択肢_D文章ストリング
質問/語幹文章ストリング
turkId匿名化文章ストリング
  • 引用
@article{mihaylov2018can,
  title={Can a suit of armor conduct electricity? a new dataset for open book question answering},
  author={Mihaylov, Todor and Clark, Peter and Khot, Tushar and Sabharwal, Ashish},
  journal={arXiv preprint arXiv:1809.02789},
  year={2018}
}