trivia_qa

  • 説明:

TriviaqQA は、650,000 件を超える質疑応答証拠のトリプルを含む読解データセットです。 TriviaqQA には、トリビア愛好家によって作成された 95,000 の質問と回答のペアと、独立して収集された証拠ドキュメント (質問ごとに平均 6 つ) が含まれており、質問に回答するための高品質の遠隔監視を提供します。

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答え特徴辞書
回答/エイリアスシーケンス(テキスト) (なし、)
answer/matched_wiki_entity_name文章
回答/normalized_aliasesシーケンス(テキスト) (なし、)
回答/normalized_matched_wiki_entity_name文章
回答/正規化された_値文章
答え/タイプ文章
答え/値文章
entity_pages順序
entity_pages/doc_source文章
entity_pages/ファイル名文章
entity_pages/タイトル文章
entity_pages/wiki_context文章
質問文章
question_id文章
question_source文章
の検索結果順序
検索結果/説明文章
検索結果/ファイル名文章
検索結果/ランクテンソルint32
検索結果/検索コンテキスト文章
検索結果/タイトル文章
検索結果/URL文章
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (デフォルト設定)

  • 構成の説明: 特定の質問のすべてのドキュメントに回答文字列が含まれる質問と回答のペア。ウィキペディアと検索結果からのコンテキストが含まれます。

  • ダウンロードサイズ: 2.48 GiB

  • データセットサイズ: 14.99 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • 構成の説明: 特定の質問のすべてのドキュメントに回答文字列が含まれる質問と回答のペア。

  • ダウンロードサイズ: 2.48 GiB

  • データセットサイズ: 196.84 MiB

  • 自動キャッシュ(ドキュメント): はい (テスト、検証)、 shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/unfiltered

  • 構成の説明: 特定の質問に対するすべてのドキュメントに回答文字列が含まれているわけではない、オープン ドメイン QA 用の 110k の質問と回答のペア。これにより、フィルタリングされていないデータセットが IR スタイルの QA により適したものになります。ウィキペディアと検索結果からのコンテキストが含まれます。

  • ダウンロードサイズ: 3.07 GiB

  • データセットサイズ: 27.27 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • 構成の説明: 特定の質問に対するすべてのドキュメントに回答文字列が含まれているわけではない、オープン ドメイン QA 用の 110k の質問と回答のペア。これにより、フィルタリングされていないデータセットが IR スタイルの QA により適したものになります。

  • ダウンロードサイズ: 603.25 MiB

  • データセットのサイズ: 119.78 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 10,832
'train' 87,622
'validation' 11,313

  • 説明:

TriviaqQA は、650,000 件を超える質疑応答証拠のトリプルを含む読解データセットです。 TriviaqQA には、トリビア愛好家によって作成された 95,000 の質問と回答のペアと、独立して収集された証拠ドキュメント (質問ごとに平均 6 つ) が含まれており、質問に回答するための高品質の遠隔監視を提供します。

FeaturesDict({
    'answer': FeaturesDict({
        'aliases': Sequence(Text(shape=(), dtype=string)),
        'matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_aliases': Sequence(Text(shape=(), dtype=string)),
        'normalized_matched_wiki_entity_name': Text(shape=(), dtype=string),
        'normalized_value': Text(shape=(), dtype=string),
        'type': Text(shape=(), dtype=string),
        'value': Text(shape=(), dtype=string),
    }),
    'entity_pages': Sequence({
        'doc_source': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'wiki_context': Text(shape=(), dtype=string),
    }),
    'question': Text(shape=(), dtype=string),
    'question_id': Text(shape=(), dtype=string),
    'question_source': Text(shape=(), dtype=string),
    'search_results': Sequence({
        'description': Text(shape=(), dtype=string),
        'filename': Text(shape=(), dtype=string),
        'rank': int32,
        'search_context': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'url': Text(shape=(), dtype=string),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
答え特徴辞書
回答/エイリアスシーケンス(テキスト) (なし、)
answer/matched_wiki_entity_name文章
回答/normalized_aliasesシーケンス(テキスト) (なし、)
回答/normalized_matched_wiki_entity_name文章
回答/正規化された_値文章
答え/タイプ文章
答え/値文章
entity_pages順序
entity_pages/doc_source文章
entity_pages/ファイル名文章
entity_pages/タイトル文章
entity_pages/wiki_context文章
質問文章
question_id文章
question_source文章
の検索結果順序
検索結果/説明文章
検索結果/ファイル名文章
検索結果/ランクテンソルint32
検索結果/検索コンテキスト文章
検索結果/タイトル文章
検索結果/url文章
@article{2017arXivtriviaqa,
       author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
                 Daniel and {Zettlemoyer}, Luke},
        title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
      journal = {arXiv e-prints},
         year = 2017,
          eid = {arXiv:1705.03551},
        pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
       eprint = {1705.03551},
}

trivia_qa/rc (デフォルト設定)

  • 構成の説明: 特定の質問のすべてのドキュメントに回答文字列が含まれる質問と回答のペア。ウィキペディアと検索結果からのコンテキストが含まれます。

  • ダウンロードサイズ: 2.48 GiB

  • データセットサイズ: 14.99 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/rc.nocontext

  • 構成の説明: 特定の質問のすべてのドキュメントに回答文字列が含まれる質問と回答のペア。

  • ダウンロードサイズ: 2.48 GiB

  • データセットサイズ: 196.84 MiB

  • 自動キャッシュ(ドキュメント): はい (テスト、検証)、 shuffle_files=Falseの場合のみ (トレーニング)

  • スプリット:

スプリット
'test' 17,210
'train' 138,384
'validation' 18,669

trivia_qa/unfiltered

  • 構成の説明: 特定の質問に対するすべてのドキュメントに回答文字列が含まれているわけではない、オープン ドメイン QA 用の 110k の質問と回答のペア。これにより、フィルタリングされていないデータセットが IR スタイルの QA により適したものになります。ウィキペディアと検索結果からのコンテキストが含まれます。

  • ダウンロードサイズ: 3.07 GiB

  • データセットサイズ: 27.27 GiB

  • 自動キャッシュ(ドキュメント): いいえ

  • スプリット:

スプリット
'test' 10,832
'train' 87,622
'validation' 11,313

trivia_qa/unfiltered.nocontext

  • 構成の説明: 特定の質問に対するすべてのドキュメントに回答文字列が含まれているわけではない、オープン ドメイン QA 用の 110k の質問と回答のペア。これにより、フィルタリングされていないデータセットが IR スタイルの QA により適したものになります。

  • ダウンロードサイズ: 603.25 MiB

  • データセットのサイズ: 119.78 MiB

  • 自動キャッシュ(ドキュメント): はい

  • スプリット:

スプリット
'test' 10,832
'train' 87,622
'validation' 11,313