отряд

  • Описание:

Стэнфордский набор данных с ответами на вопросы (SQuAD) - это набор данных для понимания прочитанного, состоящий из вопросов, заданных краудворкерами в наборе статей Википедии, где ответом на каждый вопрос является фрагмент текста или промежуток из соответствующего отрывка для чтения или вопрос может быть безответным.

  • Домашняя страница: https://rajpurkar.github.io/SQuAD-explorer/

  • Исходный код: tfds.question_answering.squad.Squad

  • Версии:

    • 3.0.0 ( по умолчанию): Исправляет проблема с небольшим количеством примеров (19) , где ответ пролеты смещаются под действием контекста удаления белого пространства.
  • Контролируемые ключи (см as_supervised документ ): None

  • Рис ( tfds.show_examples ): Не поддерживается.

  • Образец цитирования:

@article{2016arXiv160605250R,
       author = { {Rajpurkar}, Pranav and {Zhang}, Jian and {Lopyrev},
                 Konstantin and {Liang}, Percy},
        title = "{SQuAD: 100,000+ Questions for Machine Comprehension of Text}",
      journal = {arXiv e-prints},
         year = 2016,
          eid = {arXiv:1606.05250},
        pages = {arXiv:1606.05250},
archivePrefix = {arXiv},
       eprint = {1606.05250},
}

squad / v1.1 (конфигурация по умолчанию)

  • Описание конфигурации: Версия 1.1.0 от SQUAD

  • Скачать Размер: 33.51 MiB

  • Dataset Размер: 94.06 MiB

  • Авто-кэшируются ( документация ): Да

  • расколы:

Расколоть Примеры
'train' 87 599
'validation' 10 570
  • Особенности:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

отряд / v2.0

  • Описание конфигурации: Версия 2.0.0 SQUAD

  • Скачать Размер: 44.34 MiB

  • Dataset Размер: 148.54 MiB

  • Авто-кэшируются ( документация ): Да (проверка), только когда shuffle_files=False (поезд)

  • расколы:

Расколоть Примеры
'train' 130 319
'validation' 11 873
  • Особенности:
FeaturesDict({
    'answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'context': Text(shape=(), dtype=tf.string),
    'id': tf.string,
    'is_impossible': tf.bool,
    'plausible_answers': Sequence({
        'answer_start': tf.int32,
        'text': Text(shape=(), dtype=tf.string),
    }),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})