分隊

  • 説明

スタンフォード質問応答データセット(SQuAD)は、一連のウィキペディアの記事でクラウドワーカーによって提起された質問で構成される読解データセットです。すべての質問への回答は、対応する読解パッセージまたは質問からのテキストまたはスパンのセグメントです。答えられないかもしれません。

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

分隊/v1.1(デフォルト設定)

  • コンフィグの説明:SQUADのバージョン1.1.0

  • ダウンロードサイズ33.51 MiB

  • データセットサイズ94.06 MiB

  • オートキャッシュされたドキュメント):はい

  • スプリット

スプリット
'train' 87,599
'validation' 10,570
  • 特長
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

分隊/v2.0

  • コンフィグの説明:SQUADのバージョン2.0.0

  • ダウンロードサイズ44.34 MiB

  • データセットのサイズ148.54 MiB

  • オートキャッシュされたドキュメント):はい(バリデーション)、ときにのみshuffle_files=False (電車)

  • スプリット

スプリット
'train' 130,319
'validation' 11,873
  • 特長
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'is_impossible': tf.bool,
    'plausible_answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})