Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

натуральные_вопросы

  • Описание :

Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы обеспечения качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.

Расколоть Примеры
'train' 307 373
'validation' 7830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (конфигурация по умолчанию)

  • Описание конфигурации : Конфигурация natural_questions по умолчанию

  • Размер набора данных : 90.26 GiB

  • Структура функции :

FeaturesDict({
    'annotations': Sequence({
        'id': tf.string,
        'long_answer': FeaturesDict({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
        }),
        'short_answers': Sequence({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
            'text': Text(shape=(), dtype=tf.string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'tokens': Sequence({
            'is_html': tf.bool,
            'token': Text(shape=(), dtype=tf.string),
        }),
        'url': Text(shape=(), dtype=tf.string),
    }),
    'id': tf.string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=tf.string),
        'tokens': Sequence(tf.string),
    }),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
аннотации Последовательность
аннотации/идентификатор Тензор tf.string
аннотации/long_answer ОсобенностиDict
аннотации/long_answer/end_byte Тензор tf.int64
аннотации/long_answer/end_token Тензор tf.int64
аннотации/long_answer/start_byte Тензор tf.int64
аннотации/long_answer/start_token Тензор tf.int64
аннотации/short_answers Последовательность
аннотации/short_answers/end_byte Тензор tf.int64
аннотации/short_answers/end_token Тензор tf.int64
аннотации/short_answers/start_byte Тензор tf.int64
аннотации/short_answers/start_token Тензор tf.int64
аннотации/короткие_ответы/текст Текст tf.string
аннотации/yes_no_answer Метка класса tf.int64
документ ОсобенностиDict
документ/html Текст tf.string
Заголовок документа Текст tf.string
документ/токены Последовательность
документ/токены/is_html Тензор tf.bool
документ/токены/токен Текст tf.string
документ/ссылка Текст tf.string
я бы Тензор tf.string
вопрос ОсобенностиDict
вопрос/текст Текст tf.string
вопрос/жетоны Последовательность (тензор) (Никто,) tf.string

natural_questions/longt5

  • Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5

  • Размер набора данных : 8.91 GiB

  • Структура функции :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
    'answer': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
all_answers Последовательность (текст) (Никто,) tf.string
отвечать Текст tf.string
контекст Текст tf.string
я бы Текст tf.string
вопрос Текст tf.string
заглавие Текст tf.string
,

  • Описание :

Корпус NQ содержит вопросы от реальных пользователей, и он требует, чтобы системы обеспечения качества прочитали и поняли всю статью в Википедии, которая может содержать или не содержать ответ на вопрос. Включение реальных вопросов пользователей и требование, чтобы решения читали всю страницу, чтобы найти ответ, делают NQ более реалистичной и сложной задачей, чем предыдущие наборы данных QA.

Расколоть Примеры
'train' 307 373
'validation' 7830
@article{47761,
title = {Natural Questions: a Benchmark for Question Answering Research},
author = {Tom Kwiatkowski and Jennimaria Palomaki and Olivia Redfield and Michael Collins and Ankur Parikh and Chris Alberti and Danielle Epstein and Illia Polosukhin and Matthew Kelcey and Jacob Devlin and Kenton Lee and Kristina N. Toutanova and Llion Jones and Ming-Wei Chang and Andrew Dai and Jakob Uszkoreit and Quoc Le and Slav Petrov},
year = {2019},
journal = {Transactions of the Association of Computational Linguistics}
}

natural_questions/default (конфигурация по умолчанию)

  • Описание конфигурации : Конфигурация natural_questions по умолчанию

  • Размер набора данных : 90.26 GiB

  • Структура функции :

FeaturesDict({
    'annotations': Sequence({
        'id': tf.string,
        'long_answer': FeaturesDict({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
        }),
        'short_answers': Sequence({
            'end_byte': tf.int64,
            'end_token': tf.int64,
            'start_byte': tf.int64,
            'start_token': tf.int64,
            'text': Text(shape=(), dtype=tf.string),
        }),
        'yes_no_answer': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
    }),
    'document': FeaturesDict({
        'html': Text(shape=(), dtype=tf.string),
        'title': Text(shape=(), dtype=tf.string),
        'tokens': Sequence({
            'is_html': tf.bool,
            'token': Text(shape=(), dtype=tf.string),
        }),
        'url': Text(shape=(), dtype=tf.string),
    }),
    'id': tf.string,
    'question': FeaturesDict({
        'text': Text(shape=(), dtype=tf.string),
        'tokens': Sequence(tf.string),
    }),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
аннотации Последовательность
аннотации/идентификатор Тензор tf.string
аннотации/long_answer ОсобенностиDict
аннотации/long_answer/end_byte Тензор tf.int64
аннотации/long_answer/end_token Тензор tf.int64
аннотации/long_answer/start_byte Тензор tf.int64
аннотации/long_answer/start_token Тензор tf.int64
аннотации/short_answers Последовательность
аннотации/short_answers/end_byte Тензор tf.int64
аннотации/short_answers/end_token Тензор tf.int64
аннотации/short_answers/start_byte Тензор tf.int64
аннотации/short_answers/start_token Тензор tf.int64
аннотации/короткие_ответы/текст Текст tf.string
аннотации/yes_no_answer Метка класса tf.int64
документ ОсобенностиDict
документ/html Текст tf.string
Заголовок документа Текст tf.string
документ/токены Последовательность
документ/токены/is_html Тензор tf.bool
документ/токены/токен Текст tf.string
документ/ссылка Текст tf.string
я бы Тензор tf.string
вопрос ОсобенностиDict
вопрос/текст Текст tf.string
вопрос/жетоны Последовательность (тензор) (Никто,) tf.string

natural_questions/longt5

  • Описание конфига: natural_questions предварительно обработаны как в бенчмарке longT5

  • Размер набора данных : 8.91 GiB

  • Структура функции :

FeaturesDict({
    'all_answers': Sequence(Text(shape=(), dtype=tf.string)),
    'answer': Text(shape=(), dtype=tf.string),
    'context': Text(shape=(), dtype=tf.string),
    'id': Text(shape=(), dtype=tf.string),
    'question': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Характерная черта Класс Форма Dтип Описание
ОсобенностиDict
all_answers Последовательность (текст) (Никто,) tf.string
отвечать Текст tf.string
контекст Текст tf.string
я бы Текст tf.string
вопрос Текст tf.string
заглавие Текст tf.string