équipe

  • Description:

Stanford Question Answering Dataset (SQuAD) est un ensemble de données de compréhension de lecture, composé de questions posées par des crowdworkers sur un ensemble d'articles de Wikipédia, où la réponse à chaque question est un segment de texte, ou span, du passage de lecture correspondant, ou la question peut-être sans réplique.

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

squad/v1.1 (configuration par défaut)

  • Description Config: Version 1.1.0 de SQUAD

  • Taille du téléchargement: 33.51 MiB

  • Dataset Taille: 94.06 MiB

  • Auto-cache ( documentation ): Oui

  • scissions:

Diviser Exemples
'train' 87 599
'validation' 10 570
  • Caractéristiques:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

escouade/v2.0

  • Description Config: Version 2.0.0 de SQUAD

  • Taille du téléchargement: 44.34 MiB

  • Dataset Taille: 148.54 MiB

  • Auto-cache ( documentation ): Oui (validation), seulement quand shuffle_files=False (train)

  • scissions:

Diviser Exemples
'train' 130 319
'validation' 11 873
  • Caractéristiques:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'is_impossible': tf.bool,
    'plausible_answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})