натуральные_вопросы

  • Описание :

Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование о том, что решения должны читать всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.

Расколоть Примеры
'train' 307 373
'validation' 7830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (конфигурация по умолчанию)

  • Описание конфигурации : Конфигурация natural_questions по умолчанию

  • Размер набора данных : 90.26 GiB

  • Структура функции :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
аннотации Последовательность
аннотации/идентификатор Тензор нить
аннотации/long_answer ОсобенностиDict
аннотации/long_answer/end_byte Тензор int64
аннотации/long_answer/end_token Тензор int64
аннотации/long_answer/start_byte Тензор int64
аннотации/long_answer/start_token Тензор int64
аннотации/short_answers Последовательность
аннотации/short_answers/end_byte Тензор int64
аннотации/short_answers/end_token Тензор int64
аннотации/short_answers/start_byte Тензор int64
аннотации/short_answers/start_token Тензор int64
аннотации/короткие_ответы/текст Текст нить
аннотации/yes_no_answer Метка класса int64
документ ОсобенностиDict
документ/html Текст нить
Заголовок документа Текст нить
документ/токены Последовательность
документ/токены/is_html Тензор логический
документ/токены/токен Текст нить
документ/ссылка Текст нить
идентификатор Тензор нить
вопрос ОсобенностиDict
вопрос/текст Текст нить
вопрос/жетоны Последовательность (тензор) (Никто,) нить

natural_questions/longt5

  • Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5

  • Размер набора данных : 8.91 GiB

  • Структура функции :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})
  • Документация по функциям :
Особенность Сорт Форма Dтип Описание
ОсобенностиDict
all_answers Последовательность (текст) (Никто,) нить
отвечать Текст нить
контекст Текст нить
идентификатор Текст нить
вопрос Текст нить
заголовок Текст нить