mrqa

  • 説明:

MRQA 2019 共有タスクは、質問応答の一般化に焦点を当てています。効果的な質問応答システムは、同じ分布から引き出されたテスト例に回答するためにトレーニング セットから補間するだけではなく、分布外の例を推定することもできる必要があります。これは非常に困難な課題です。

MRQA は、複数の個別の質問応答データセット (既存のデータセットの慎重に選択されたサブセット) を同じ形式 (SQuAD 形式) に適合させて統合します。そのうち、6 つのデータセットがトレーニング用に利用可能になり、6 つのデータセットがテスト用に利用可能になりました。トレーニング データセットのごく一部は、開発に使用できるドメイン内データとして提供されました。テスト データセットには、ドメイン外のデータのみが含まれています。このベンチマークは、MRQA 2019 Shared Task の一部としてリリースされています。

詳細については、 <a href="https://mrqa.github.io/2019/shared.html">https://mrqa.github.io/2019/shared.html</a>をご覧ください。

FeaturesDict({
    'answers': Sequence(string),
    'context': string,
    'context_tokens': Sequence({
        'offsets': int32,
        'tokens': string,
    }),
    'detected_answers': Sequence({
        'char_spans': Sequence({
            'end': int32,
            'start': int32,
        }),
        'text': string,
        'token_spans': Sequence({
            'end': int32,
            'start': int32,
        }),
    }),
    'qid': string,
    'question': string,
    'question_tokens': Sequence({
        'offsets': int32,
        'tokens': string,
    }),
    'subset': string,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答えシーケンス(テンソル) (なし、)ストリング
環境テンソルストリング
context_tokens順序
context_tokens/offsetsテンソルint32
context_tokens/トークンテンソルストリング
検出された回答順序
検出された_回答/char_spans順序
detected_answers/char_spans/endテンソルint32
detected_answers/char_spans/startテンソルint32
検出された_回答/テキストテンソルストリング
検出された_回答/トークン_スパン順序
detected_answers/token_spans/endテンソルint32
検出された_回答/トークン_スパン/開始テンソルint32
キッドテンソルストリング
質問テンソルストリング
question_tokens順序
question_tokens/offsetsテンソルint32
question_tokens/トークンテンソルストリング
サブセットテンソルストリング

mrqa/squad (デフォルト設定)

  • 構成の説明: SQuAD (Stanford Question Answering Dataset) データセットは、共有タスク形式の基礎として使用されます。クラウドワーカーはウィキペディアの段落を見せられ、抽出的な回答を含む質問を書くよう求められます。

  • ダウンロードサイズ: 29.66 MiB

  • データセットサイズ: 271.43 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 86,588
'validation' 10,507
  • 引用
@inproceedings{rajpurkar-etal-2016-squad,
    title = "{SQ}u{AD}: 100,000+ Questions for Machine Comprehension of Text",
    author = "Rajpurkar, Pranav  and
      Zhang, Jian  and
      Lopyrev, Konstantin  and
      Liang, Percy",
    booktitle = "Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing",
    month = nov,
    year = "2016",
    address = "Austin, Texas",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D16-1264",
    doi = "10.18653/v1/D16-1264",
    pages = "2383--2392",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/news_qa

  • 構成の説明: 2 組のクラウドワーカーが、CNN のニュース記事に基づいて質問し、回答します。 「質問者」には記事の見出しと要約のみが表示され、「回答者」には記事全体が表示されます。回答がない、またはデータセット内でアノテーターの同意がないというフラグが付けられている質問は破棄されます。

  • ダウンロードサイズ: 56.83 MiB

  • データセットのサイズ: 654.25 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 74,160
'validation' 4,212
  • 引用
@inproceedings{trischler-etal-2017-newsqa,
        title = "{N}ews{QA}: A Machine Comprehension Dataset",
        author = "Trischler, Adam  and
          Wang, Tong  and
          Yuan, Xingdi  and
          Harris, Justin  and
          Sordoni, Alessandro  and
          Bachman, Philip  and
          Suleman, Kaheer",
        booktitle = "Proceedings of the 2nd Workshop on Representation Learning for {NLP}",
        month = aug,
        year = "2017",
        address = "Vancouver, Canada",
        publisher = "Association for Computational Linguistics",
        url = "https://aclanthology.org/W17-2623",
        doi = "10.18653/v1/W17-2623",
        pages = "191--200",
    }
#
@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/トリビア_qa

  • 構成の説明: 質問と回答のペアは、トリビアやクイズリーグの Web サイトから提供されています。コンテキストが Bing 検索クエリの結果から取得される TriviaQA の Web バージョンが使用されます。

  • ダウンロードサイズ: 383.14 MiB

  • データセットのサイズ: 772.75 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 61,688
'validation' 7,785
  • 引用
@inproceedings{joshi-etal-2017-triviaqa,
    title = "{T}rivia{QA}: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension",
    author = "Joshi, Mandar  and
      Choi, Eunsol  and
      Weld, Daniel  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P17-1147",
    doi = "10.18653/v1/P17-1147",
    pages = "1601--1611",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/search_qa

  • 構成の説明: 質問と回答のペアは Jeopardy! から取得されます。テレビ番組。コンテキストは、Google 検索クエリから取得したスニペットで構成されています。

  • ダウンロードサイズ: 699.86 MiB

  • データセットサイズ: 1.38 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 117,384
'validation' 16,980
  • 引用
@article{dunn2017searchqa,
    title={Searchqa: A new q\&a dataset augmented with context from a search engine},
    author={Dunn, Matthew and Sagun, Levent and Higgins, Mike and Guney, V Ugur and Cirik, Volkan and Cho, Kyunghyun},
    journal={arXiv preprint arXiv:1704.05179},
    year={2017}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/hotpot_qa

  • 構成の説明: クラウドワーカーは、ウィキペディアからエンティティにリンクされた 2 つの段落が表示され、解決するためにマルチホップの推論が必要な質問を作成して回答するよう求められます。元の設定では、これらのパラグラフは、推論をより困難にするために追加のディストラクタ パラグラフと混合されています。ここでは、ディストラクターの段落は含まれていません。

  • ダウンロードサイズ: 111.98 MiB

  • データセットサイズ: 272.87 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 72,928
'validation' 5,901
  • 引用
@inproceedings{yang-etal-2018-hotpotqa,
    title = "{H}otpot{QA}: A Dataset for Diverse, Explainable Multi-hop Question Answering",
    author = "Yang, Zhilin  and
      Qi, Peng  and
      Zhang, Saizheng  and
      Bengio, Yoshua  and
      Cohen, William  and
      Salakhutdinov, Ruslan  and
      Manning, Christopher D.",
    booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing",
    month = oct # "-" # nov,
    year = "2018",
    address = "Brussels, Belgium",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D18-1259",
    doi = "10.18653/v1/D18-1259",
    pages = "2369--2380",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/natural_questions

  • 構成説明: 質問は、自然な条件下で実際のユーザーが Google 検索エンジンに情報を求めるクエリから収集されます。質問への回答は、クラウドワーカーによって検索されたウィキペディアのページに注釈が付けられます。 2 種類の注釈が​​収集されます。1) 質問に対する回答を完全に推測するのに十分な情報を含む HTML バウンディング ボックス (ロング アンサー)、および 2) 実際の回答を構成するバウンディング ボックス内のサブスパンまたはサブスパン (ショート アンサー)。 )。短い答えを持つ例のみが使用され、長い答えがコンテキストとして使用されます。

  • ダウンロードサイズ: 121.15 MiB

  • データセットサイズ: 339.03 MiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'train' 104,071
'validation' 12,836
  • 引用
@article{kwiatkowski-etal-2019-natural,
    title = "Natural Questions: A Benchmark for Question Answering Research",
    author = "Kwiatkowski, Tom  and
      Palomaki, Jennimaria  and
      Redfield, Olivia  and
      Collins, Michael  and
      Parikh, Ankur  and
      Alberti, Chris  and
      Epstein, Danielle  and
      Polosukhin, Illia  and
      Devlin, Jacob  and
      Lee, Kenton  and
      Toutanova, Kristina  and
      Jones, Llion  and
      Kelcey, Matthew  and
      Chang, Ming-Wei  and
      Dai, Andrew M.  and
      Uszkoreit, Jakob  and
      Le, Quoc  and
      Petrov, Slav",
    journal = "Transactions of the Association for Computational Linguistics",
    volume = "7",
    year = "2019",
    address = "Cambridge, MA",
    publisher = "MIT Press",
    url = "https://aclanthology.org/Q19-1026",
    doi = "10.1162/tacl_a_00276",
    pages = "452--466",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/bio_asq

  • 構成の説明: 大規模な生物医学的セマンティック インデックス作成と質問応答に関する課題である BioASQ には、ドメインの専門家によって作成された質問と回答のペアが含まれています。その後、関連する複数の科学 (PubMed) 記事に手動でリンクされます。リンクされた各記事の完全な要約がダウンロードされ、個別のコンテキストとして使用されます (たとえば、1 つの質問を複数の独立した記事にリンクして、複数の QA コンテキストのペアを作成できます)。回答が正確に含まれていない抄録は破棄されます。

  • ダウンロードサイズ: 2.54 MiB

  • データセットのサイズ: 6.70 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,504
  • 引用
@article{tsatsaronis2015overview,
    title={An overview of the BIOASQ large-scale biomedical semantic indexing and question answering competition},
    author={Tsatsaronis, George and Balikas, Georgios and Malakasiotis, Prodromos and Partalas, Ioannis and Zschunke, Matthias and Alvers, Michael R and Weissenborn, Dirk and Krithara, Anastasia and Petridis, Sergios and Polychronopoulos, Dimitris and others},
    journal={BMC bioinformatics},
    volume={16},
    number={1},
    pages={1--28},
    year={2015},
    publisher={Springer}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/ドロップ

  • 構成の説明: DROP (パラグラフのコンテンツに対する離散推論) の例は、クラウドワーカーがウィキペディアのパラグラフから質問と回答のペアを作成するよう求められる SQuAD と同様に収集されました。質問は定量的推論に焦点を当てており、元のデータセットには、非抽出数値回答と抽出テキスト回答が含まれています。抽出的な質問のセットが使用されます。

  • ダウンロードサイズ: 578.25 KiB

  • データセットのサイズ: 5.41 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,503
  • 引用
@inproceedings{dua-etal-2019-drop,
    title = "{DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs",
    author = "Dua, Dheeru  and
      Wang, Yizhong  and
      Dasigi, Pradeep  and
      Stanovsky, Gabriel  and
      Singh, Sameer  and
      Gardner, Matt",
    booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)",
    month = jun,
    year = "2019",
    address = "Minneapolis, Minnesota",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/N19-1246",
    doi = "10.18653/v1/N19-1246",
    pages = "2368--2378",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/duo_rc

  • 構成の説明: DuoRC データセットの ParaphraseRC 分割が使用されます。この設定では、同じ映画の 2 つの異なるあらすじ (1 つはウィキペディアから、もう 1 つは IMDb から) が収集されます。 2 組のクラウドワーカーが映画のあらすじについて質問し、回答します。「質問者」にはウィキペディアのページのみが表示され、「回答者」には IMDb ページのみが表示されます。回答不能としてマークされた質問は破棄されます。

  • ダウンロードサイズ: 1.14 MiB

  • データセットサイズ: 15.04 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,501
  • 引用
@inproceedings{saha-etal-2018-duorc,
    title = "{D}uo{RC}: Towards Complex Language Understanding with Paraphrased Reading Comprehension",
    author = "Saha, Amrita  and
      Aralikatte, Rahul  and
      Khapra, Mitesh M.  and
      Sankaranarayanan, Karthik",
    booktitle = "Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2018",
    address = "Melbourne, Australia",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/P18-1156",
    doi = "10.18653/v1/P18-1156",
    pages = "1683--1693",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/レース

  • 構成の説明: ReAding Comprehension Dataset From Examinations (RACE) は、中国の中高生向けの英語の読解力試験から収集されます。高校の分割 (より難しい) が使用され、暗黙の「穴埋め」スタイルの質問 (このタスクには不自然です) も除外されます。

  • ダウンロードサイズ: 1.49 MiB

  • データセットサイズ: 3.53 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 674
  • 引用
@inproceedings{lai-etal-2017-race,
    title = "{RACE}: Large-scale {R}e{A}ding Comprehension Dataset From Examinations",
    author = "Lai, Guokun  and
      Xie, Qizhe  and
      Liu, Hanxiao  and
      Yang, Yiming  and
      Hovy, Eduard",
    booktitle = "Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing",
    month = sep,
    year = "2017",
    address = "Copenhagen, Denmark",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D17-1082",
    doi = "10.18653/v1/D17-1082",
    pages = "785--794",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/relation_extraction

  • 構成の説明: スロットを埋めるデータセットが与えられると、エンティティ間の関係は、テンプレートを使用して体系的に質問と回答のペアに変換されます。たとえば、文に現れる 2 つのエンティティ x と y の間の educationd_at(x, y) 関係は、「x はどこで教育を受けましたか?」と表現できます。答えyで。リレーションのタイプごとに複数のテンプレートが収集されます。データセットのゼロショット ベンチマーク分割 (目に見えない関係への一般化) が使用され、正の例のみが保持されます。

  • ダウンロードサイズ: 830.88 KiB

  • データセットサイズ: 3.71 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 2,948
  • 引用
@inproceedings{levy-etal-2017-zero,
    title = "Zero-Shot Relation Extraction via Reading Comprehension",
    author = "Levy, Omer  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Zettlemoyer, Luke",
    booktitle = "Proceedings of the 21st Conference on Computational Natural Language Learning ({C}o{NLL} 2017)",
    month = aug,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/K17-1034",
    doi = "10.18653/v1/K17-1034",
    pages = "333--342",
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."

mrqa/textbook_qa

  • 構成の説明: TextbookQA は、中学校の生命科学、地球科学、および物理科学の教科書の授業から収集されます。図付きの質問、または「正誤問題」の質問は含まれていません。

  • ダウンロードサイズ: 1.79 MiB

  • データセットのサイズ: 14.04 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 1,503
  • 引用
@inproceedings{kembhavi2017you,
    title={Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension},
    author={Kembhavi, Aniruddha and Seo, Minjoon and Schwenk, Dustin and Choi, Jonghyun and Farhadi, Ali and Hajishirzi, Hannaneh},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern recognition},
    pages={4999--5007},
    year={2017}
}

@inproceedings{fisch-etal-2019-mrqa,
    title = "{MRQA} 2019 Shared Task: Evaluating Generalization in Reading Comprehension",
    author = "Fisch, Adam  and
      Talmor, Alon  and
      Jia, Robin  and
      Seo, Minjoon  and
      Choi, Eunsol  and
      Chen, Danqi",
    booktitle = "Proceedings of the 2nd Workshop on Machine Reading for Question Answering",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/D19-5801",
    doi = "10.18653/v1/D19-5801",
    pages = "1--13",
}

Note that each MRQA dataset has its own citation. Please see the source to see
the correct citation for each contained dataset."