натуральные_вопросы

Описание :

Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы контроля качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование о том, что решения должны читать всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://ai.google.com/research/NaturalQuestions/dataset
Исходный код : tfds.datasets.natural_questions.Builder
Версии :
- 0.0.2 : Нет примечаний к выпуску.
- 0.1.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : 41.97 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'train'`	307 373
`'validation'`	7830

Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (конфигурация по умолчанию)

Описание конфигурации : Конфигурация natural_questions по умолчанию
Размер набора данных : 90.26 GiB
Структура функции :

FeaturesDict({
    'annotations': Sequence({
        'id': string,
        'long_answer': FeaturesDict({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
        }),
        'short_answers': Sequence({
            'end_byte': int64,
            'end_token': int64,
            'start_byte': int64,
            'start_token': int64,
            'text': Text(shape=(), dtype=string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=string),
        'title': Text(shape=(), dtype=string),
        'tokens': Sequence({
            'is_html': bool,
            'token': Text(shape=(), dtype=string),
        }),
        'url': Text(shape=(), dtype=string),
    }),
    'id': string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=string),
        'tokens': Sequence(string),
    }),
})

Документация по функциям :

Особенность	Сорт	Форма	Dтип
	ОсобенностиDict
аннотации	Последовательность
аннотации/идентификатор	Тензор		нить
аннотации/long_answer	ОсобенностиDict
аннотации/long_answer/end_byte	Тензор		int64
аннотации/long_answer/end_token	Тензор		int64
аннотации/long_answer/start_byte	Тензор		int64
аннотации/long_answer/start_token	Тензор		int64
аннотации/short_answers	Последовательность
аннотации/short_answers/end_byte	Тензор		int64
аннотации/short_answers/end_token	Тензор		int64
аннотации/short_answers/start_byte	Тензор		int64
аннотации/short_answers/start_token	Тензор		int64
аннотации/короткие_ответы/текст	Текст		нить
аннотации/yes_no_answer	Метка класса		int64
документ	ОсобенностиDict
документ/html	Текст		нить
Заголовок документа	Текст		нить
документ/токены	Последовательность
документ/токены/is_html	Тензор		логический
документ/токены/токен	Текст		нить
документ/ссылка	Текст		нить
идентификатор	Тензор		нить
вопрос	ОсобенностиDict
вопрос/текст	Текст		нить
вопрос/жетоны	Последовательность (тензор)	(Никто,)	нить

Примеры ( tfds.as_dataframe ):

natural_questions/longt5

Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5
Размер набора данных : 8.91 GiB
Структура функции :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=string)),
    'answer': Text(shape=(), dtype=string),
    'context': Text(shape=(), dtype=string),
    'id': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Сорт	Форма	Dтип
	ОсобенностиDict
all_answers	Последовательность (текст)	(Никто,)	нить
отвечать	Текст		нить
контекст	Текст		нить
идентификатор	Текст		нить
вопрос	Текст		нить
заголовок	Текст		нить

Примеры ( tfds.as_dataframe ):