trivia_qa

  • 説明

TriviaqQAは、65万を超える質問-回答-証拠のトリプルを含む読解データセットです。 TriviaqQAには、雑学クイズ愛好家によって作成された95Kの質問と回答のペアと、質問に回答するための高品質の遠隔監視を提供する、質問ごとに平均6つの独立して収集された証拠文書が含まれています。

スプリット
'test' 10,832
'train' 87,622
'validation' 11,313
  • 特長
FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
        'normalized_value': Text(shape=(), dtype=tf.string),
        'type': Text(shape=(), dtype=tf.string),
        'value': Text(shape=(), dtype=tf.string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'wiki_context': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'question_id': Text(shape=(), dtype=tf.string),
    'question_source': Text(shape=(), dtype=tf.string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=tf.string),
        'filename': Text(shape=(), dtype=tf.string),
        'rank': tf.int32,
        'search_context': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'url': Text(shape=(), dtype=tf.string),
    }),
})
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa / rc(デフォルト設定)

  • コンフィグの説明:与えられた質問に対するすべての文書が答え文字列(複数可)を含ん質問・回答ペア。ウィキペディアと検索結果からのコンテキストが含まれています。

  • tfds.as_dataframe ):

trivia_qa / rc.nocontext

  • コンフィグの説明:与えられた質問に対するすべての文書が答え文字列(複数可)を含ん質問・回答ペア。

  • tfds.as_dataframe ):

trivia_qa / unfiltered

  • コンフィグの説明:与えられた質問にはいないすべての文書が答え文字列(複数可)を含んオープンドメインQA用110K質問・回答ペア。これにより、フィルタリングされていないデータセットがIRスタイルのQAにより適したものになります。ウィキペディアと検索結果からのコンテキストが含まれています。

  • tfds.as_dataframe ):

trivia_qa / unfiltered.nocontext

  • コンフィグの説明:与えられた質問にはいないすべての文書が答え文字列(複数可)を含んオープンドメインQA用110K質問・回答ペア。これにより、フィルタリングされていないデータセットがIRスタイルのQAにより適したものになります。

  • tfds.as_dataframe ):