qasc

  • 説明:

QASC は、文の構成に焦点を当てた質問応答データセットです。小学校の理科に関する 9,980 問の 8 通りの多肢選択問題 (8,134 の電車、926 の開発、920 のテスト) で構成され、17M の文章のコーパスが付属しています。

スプリット
'test' 920
'train' 8,134
'validation' 926
  • 機能構造:
FeaturesDict({
    'answerKey': Text(shape=(), dtype=string),
    'choices': Sequence({
        'label': Text(shape=(), dtype=string),
        'text': Text(shape=(), dtype=string),
    }),
    'combinedfact': Text(shape=(), dtype=string),
    'fact1': Text(shape=(), dtype=string),
    'fact2': Text(shape=(), dtype=string),
    'formatted_question': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
解答文章ストリング
選択肢順序
選択肢/ラベル文章ストリング
選択肢/テキスト文章ストリング
組み合わせた事実文章ストリング
事実1文章ストリング
事実2文章ストリング
フォーマットされた質問文章ストリング
ID文章ストリング
質問文章ストリング
  • 引用
@article{allenai:qasc,
      author    = {Tushar Khot and Peter Clark and Michal Guerquin and Peter Jansen and Ashish Sabharwal},
      title     = {QASC: A Dataset for Question Answering via Sentence Composition},
      journal   = {arXiv:1910.11473v2},
      year      = {2020},
}