- Описание :
TriviaqQA - это набор данных для понимания прочитанного, содержащий более 650 тысяч троек типа вопрос-ответ-свидетельство. TriviaqQA включает 95 тыс. Пар вопросов-ответов, созданных энтузиастами пустяков, и независимо собранные доказательные документы, в среднем по шесть на вопрос, которые обеспечивают высококачественное дистанционное наблюдение за ответами на вопросы.
Домашняя страница : http://nlp.cs.washington.edu/triviaqa/
Исходный код :
tfds.question_answering.TriviaQA
Версии :
-
1.1.0
(по умолчанию): без примечаний к выпуску.
-
Размер загрузки :
Unknown size
Размер набора данных :
119.78 MiB
Автоматическое кэширование ( документация ): Да
Сплит :
Трещина | Примеры |
---|---|
'test' | 10 832 |
'train' | 87 622 |
'validation' | 11 313 |
- Особенности :
FeaturesDict({
'answer': FeaturesDict({
'aliases': Sequence(Text(shape=(), dtype=tf.string)),
'matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_aliases': Sequence(Text(shape=(), dtype=tf.string)),
'normalized_matched_wiki_entity_name': Text(shape=(), dtype=tf.string),
'normalized_value': Text(shape=(), dtype=tf.string),
'type': Text(shape=(), dtype=tf.string),
'value': Text(shape=(), dtype=tf.string),
}),
'entity_pages': Sequence({
'doc_source': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'wiki_context': Text(shape=(), dtype=tf.string),
}),
'question': Text(shape=(), dtype=tf.string),
'question_id': Text(shape=(), dtype=tf.string),
'question_source': Text(shape=(), dtype=tf.string),
'search_results': Sequence({
'description': Text(shape=(), dtype=tf.string),
'filename': Text(shape=(), dtype=tf.string),
'rank': tf.int32,
'search_context': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
'url': Text(shape=(), dtype=tf.string),
}),
})
Контролируемые ключи (см.
as_supervised
):None
Цитата :
@article{2017arXivtriviaqa,
author = { {Joshi}, Mandar and {Choi}, Eunsol and {Weld},
Daniel and {Zettlemoyer}, Luke},
title = "{triviaqa: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension}",
journal = {arXiv e-prints},
year = 2017,
eid = {arXiv:1705.03551},
pages = {arXiv:1705.03551},
archivePrefix = {arXiv},
eprint = {1705.03551},
}
- Рисунок ( tfds.show_examples ): не поддерживается.
trivia_qa / rc (конфигурация по умолчанию)
Описание конфигурации : пары вопрос-ответ, где все документы для данного вопроса содержат строку (строки) ответа. Включает контекст из Википедии и результаты поиска.
Примеры ( tfds.as_dataframe ):
trivia_qa / rc.nocontext
Описание конфигурации : пары вопрос-ответ, где все документы для данного вопроса содержат строку (строки) ответа.
Примеры ( tfds.as_dataframe ):
trivia_qa / без фильтра
Описание конфигурации : 110 тыс. Пар вопрос-ответ для открытого домена QA, где не все документы для данного вопроса содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для контроля качества в ИК-стиле. Включает контекст из Википедии и результаты поиска.
Примеры ( tfds.as_dataframe ):
trivia_qa / uniltered.nocontext
Описание конфигурации : 110 тыс. Пар вопрос-ответ для открытого домена QA, где не все документы для данного вопроса содержат строку (строки) ответа. Это делает нефильтрованный набор данных более подходящим для контроля качества в ИК-стиле.
Примеры ( tfds.as_dataframe ):