- Описание :
Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы обеспечения качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.
Домашняя страница : https://ai.google.com/research/NaturalQuestions/dataset
Исходный код :
tfds.question_answering.NaturalQuestions
Версии :
-
0.0.2
: Нет примечаний к выпуску. -
0.1.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
41.97 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 307 373 |
'validation' | 7830 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (конфигурация по умолчанию)
Описание конфигурации : Конфигурация natural_questions по умолчанию
Размер набора данных :
90.26 GiB
Структура функции :
FeaturesDict({
'annotations': Sequence({
'id': tf.string,
'long_answer': FeaturesDict({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
}),
'short_answers': Sequence({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
'text': Text(shape=(), dtype=tf.string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'tokens': Sequence({
'is_html': tf.bool,
'token': Text(shape=(), dtype=tf.string),
}),
'url': Text(shape=(), dtype=tf.string),
}),
'id': tf.string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'tokens': Sequence(tf.string),
}),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
аннотации | Последовательность | |||
аннотации/идентификатор | Тензор | tf.string | ||
аннотации/long_answer | ОсобенностиDict | |||
аннотации/long_answer/end_byte | Тензор | tf.int64 | ||
аннотации/long_answer/end_token | Тензор | tf.int64 | ||
аннотации/long_answer/start_byte | Тензор | tf.int64 | ||
аннотации/long_answer/start_token | Тензор | tf.int64 | ||
аннотации/short_answers | Последовательность | |||
аннотации/short_answers/end_byte | Тензор | tf.int64 | ||
аннотации/short_answers/end_token | Тензор | tf.int64 | ||
аннотации/short_answers/start_byte | Тензор | tf.int64 | ||
аннотации/short_answers/start_token | Тензор | tf.int64 | ||
аннотации/короткие_ответы/текст | Текст | tf.string | ||
аннотации/yes_no_answer | Метка класса | tf.int64 | ||
документ | ОсобенностиDict | |||
документ/html | Текст | tf.string | ||
Заголовок документа | Текст | tf.string | ||
документ/токены | Последовательность | |||
документ/токены/is_html | Тензор | tf.bool | ||
документ/токены/токен | Текст | tf.string | ||
документ/ссылка | Текст | tf.string | ||
я бы | Тензор | tf.string | ||
вопрос | ОсобенностиDict | |||
вопрос/текст | Текст | tf.string | ||
вопрос/жетоны | Последовательность (тензор) | (Никто,) | tf.string |
- Примеры ( tfds.as_dataframe ):
natural_questions/longt5
Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5
Размер набора данных :
8.91 GiB
Структура функции :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
'answer': Text(shape=(), dtype=tf.string),
'context': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
all_answers | Последовательность (текст) | (Никто,) | tf.string | |
отвечать | Текст | tf.string | ||
контекст | Текст | tf.string | ||
я бы | Текст | tf.string | ||
вопрос | Текст | tf.string | ||
заглавие | Текст | tf.string |
- Примеры ( tfds.as_dataframe ):
- Описание :
Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы обеспечения качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.
Домашняя страница : https://ai.google.com/research/NaturalQuestions/dataset
Исходный код :
tfds.question_answering.NaturalQuestions
Версии :
-
0.0.2
: Нет примечаний к выпуску. -
0.1.0
(по умолчанию): нет примечаний к выпуску.
-
Размер загрузки :
41.97 GiB
Автоматическое кэширование ( документация ): Нет
Сплиты :
Расколоть | Примеры |
---|---|
'train' | 307 373 |
'validation' | 7830 |
Ключи под наблюдением (см . документ
as_supervised
):None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}
natural_questions/default (конфигурация по умолчанию)
Описание конфигурации : Конфигурация natural_questions по умолчанию
Размер набора данных :
90.26 GiB
Структура функции :
FeaturesDict({
'annotations': Sequence({
'id': tf.string,
'long_answer': FeaturesDict({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
}),
'short_answers': Sequence({
'end_byte': tf.int64,
'end_token': tf.int64,
'start_byte': tf.int64,
'start_token': tf.int64,
'text': Text(shape=(), dtype=tf.string),
}),
'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
}),
'document': FeaturesDict({
'html': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'tokens': Sequence({
'is_html': tf.bool,
'token': Text(shape=(), dtype=tf.string),
}),
'url': Text(shape=(), dtype=tf.string),
}),
'id': tf.string,
'question': FeaturesDict({
'text': Text(shape=(), dtype=tf.string),
'tokens': Sequence(tf.string),
}),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
аннотации | Последовательность | |||
аннотации/идентификатор | Тензор | tf.string | ||
аннотации/long_answer | ОсобенностиDict | |||
аннотации/long_answer/end_byte | Тензор | tf.int64 | ||
аннотации/long_answer/end_token | Тензор | tf.int64 | ||
аннотации/long_answer/start_byte | Тензор | tf.int64 | ||
аннотации/long_answer/start_token | Тензор | tf.int64 | ||
аннотации/short_answers | Последовательность | |||
аннотации/short_answers/end_byte | Тензор | tf.int64 | ||
аннотации/short_answers/end_token | Тензор | tf.int64 | ||
аннотации/short_answers/start_byte | Тензор | tf.int64 | ||
аннотации/short_answers/start_token | Тензор | tf.int64 | ||
аннотации/короткие_ответы/текст | Текст | tf.string | ||
аннотации/yes_no_answer | Метка класса | tf.int64 | ||
документ | ОсобенностиDict | |||
документ/html | Текст | tf.string | ||
Заголовок документа | Текст | tf.string | ||
документ/токены | Последовательность | |||
документ/токены/is_html | Тензор | tf.bool | ||
документ/токены/токен | Текст | tf.string | ||
документ/ссылка | Текст | tf.string | ||
я бы | Тензор | tf.string | ||
вопрос | ОсобенностиDict | |||
вопрос/текст | Текст | tf.string | ||
вопрос/жетоны | Последовательность (тензор) | (Никто,) | tf.string |
- Примеры ( tfds.as_dataframe ):
natural_questions/longt5
Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5
Размер набора данных :
8.91 GiB
Структура функции :
FeaturesDict({
'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
'answer': Text(shape=(), dtype=tf.string),
'context': Text(shape=(), dtype=tf.string),
'id': Text(shape=(), dtype=tf.string),
'question': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Документация по функциям :
Характерная черта | Класс | Форма | Dтип | Описание |
---|---|---|---|---|
ОсобенностиDict | ||||
all_answers | Последовательность (текст) | (Никто,) | tf.string | |
отвечать | Текст | tf.string | ||
контекст | Текст | tf.string | ||
я бы | Текст | tf.string | ||
вопрос | Текст | tf.string | ||
заглавие | Текст | tf.string |
- Примеры ( tfds.as_dataframe ):