- Описание:
WikiHow новый крупномасштабный набор данных с помощью онлайн WikiHow ( http://www.wikihow.com/ базы знаний).
Есть две функции: - текст: тексты ответов wikihow. - заголовок: жирные строки в качестве резюме.
Существует две отдельные версии: - all: состоящая из объединения всех абзацев в качестве статей и жирных строк в качестве справочных материалов. - sep: состоит из каждого абзаца и его резюме.
Скачать «wikihowAll.csv» и «wikihowSep.csv» от https://github.com/mahnazkoupaee/WikiHow-Dataset и место их в ручной папке https://www.tensorflow.org/datasets/api_docs/python/tfds/ скачать / DownloadConfig Поезд / проверки / тестирования расколы предоставляются авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации <0,75 длины статьи) и удаления лишних запятых.
Домашняя страница: https://github.com/mahnazkoupaee/WikiHow-Dataset
Исходный код:
tfds.summarization.Wikihow
Версии:
-
1.2.0
( по умолчанию): Нет Замечания к выпуску.
-
Скачать Размер:
5.21 MiB
Dataset размер:
Unknown size
Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в
download_config.manual_dir
( по умолчанию~/tensorflow_datasets/downloads/manual/
):
Ссылки на файлы могут быть найдены на https://github.com/mahnazkoupaee/WikiHow-Dataset Пожалуйста , скачайте оба wikihowAll.csv и wikihowSep.csv.Авто-кэшируются ( документация ): Unknown
Контролируемые ключи (см
as_supervised
документ ):('text', 'headline')
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@misc{koupaee2018wikihow,
title={WikiHow: A Large Scale Text Summarization Dataset},
author={Mahnaz Koupaee and William Yang Wang},
year={2018},
eprint={1810.09305},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
wikihow / all (конфигурация по умолчанию)
Описание Config: Используйте конкатенацию всех пунктов , как статьи и жирные линии , как ссылочное резюме
расколы:
Расколоть | Примеры |
---|---|
'test' | 5 577 |
'train' | 157 252 |
'validation' | 5 599 |
- Особенности:
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):
wikihow / sep
Описание Config: использовать каждый пункт и его резюме.
расколы:
Расколоть | Примеры |
---|---|
'test' | 37 800 |
'train' | 1 060 732 |
'validation' | 37 932 |
- Особенности:
FeaturesDict({
'headline': Text(shape=(), dtype=tf.string),
'overview': Text(shape=(), dtype=tf.string),
'sectionLabel': Text(shape=(), dtype=tf.string),
'text': Text(shape=(), dtype=tf.string),
'title': Text(shape=(), dtype=tf.string),
})
- Примеры ( tfds.as_dataframe ):