natural_questions

  • 説明:

NQ コーパスには、実際のユーザーからの質問が含まれており、QA システムは、質問に対する回答が含まれている場合と含まれていない場合があるウィキペディアの記事全体を読んで理解する必要があります。実際のユーザーの質問を含めること、および解決策が答えを見つけるためにページ全体を読む必要があるという要件により、NQ は以前の QA データセットよりも現実的で困難なタスクになります。

スプリット
'train' 307,373
'validation' 7,830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (デフォルト設定)

  • 構成の説明: デフォルトの natural_questions 構成

  • データセットサイズ: 90.26 GiB

  • 機能構造:

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
注釈順序
注釈/IDテンソル
注釈/ロングアンサー特徴辞書
注釈/long_answer/end_byteテンソルint64
注釈/long_answer/end_tokenテンソルint64
注釈/long_answer/start_byteテンソルint64
注釈/long_answer/start_tokenテンソルint64
注釈/短い回答順序
注釈/short_answers/end_byteテンソルint64
注釈/short_answers/end_tokenテンソルint64
注釈/short_answers/start_byteテンソルint64
注釈/short_answers/start_tokenテンソルint64
注釈/短い回答/テキスト文章
注釈/yes_no_answerクラスラベルint64
書類特徴辞書
ドキュメント/html文章
ドキュメントのタイトル文章
ドキュメント/トークン順序
ドキュメント/トークン/is_htmlテンソルブール
ドキュメント/トークン/トークン文章
ドキュメント/URL文章
IDテンソル
質問特徴辞書
質問/テキスト文章
質問/トークンシーケンス(テンソル) (なし、)

natural_questions/longt5

  • 構成の説明: longT5 ベンチマークのように前処理された natural_questions

  • データセットサイズ: 8.91 GiB

  • 機能構造:

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
all_answersシーケンス(テキスト) (なし、)
答え文章
コンテクスト文章
ID文章
質問文章
タイトル文章