Эта страница была переведа с помощью Cloud Translation API.
Switch to English

wikihow

  • Описание :

WikiHow - это новый крупномасштабный набор данных, использующий онлайн-базу знаний WikiHow ( http://www.wikihow.com/ ).

Есть две особенности:

  • текст: wikihow отвечает на тексты.
  • заголовок: жирные строки в качестве резюме.

Есть две отдельные версии:

  • все: состоит из объединения всех абзацев в качестве статей и жирных строк в качестве справочных материалов.
  • sep: состоящий из каждого абзаца и его резюме.

Загрузите wikihowAll.csv и wikihowSep.csv с https://github.com/mahnazkoupaee/WikiHow-Dataset и поместите их в ручную папку https://www.tensorflow.org/datasets/api_docs/python/tfds/ Скачать / DownloadConfig Train / validation / test splits предоставлены авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации <0,75 длины статьи) и удаления лишних запятых.

  • Домашняя страница : https://github.com/mahnazkoupaee/WikiHow-Dataset

  • Исходный код : tfds.summarization.Wikihow

  • Версии :

    • 1.2.0 (по умолчанию): без примечаний к выпуску.
  • Размер загрузки : 5.21 MiB

  • Размер набора данных : Unknown size

  • Инструкции по загрузке вручную : для этого набора данных необходимо вручную загрузить исходные данные в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Ссылки на файлы можно найти на https://github.com/mahnazkoupaee/WikiHow-Dataset. Загрузите wikihowAll.csv и wikihowSep.csv.

  • Автоматическое кэширование ( документация ): неизвестно

  • Контролируемые ключи (см. as_supervised doc ): ('text', 'headline')

  • Цитата :

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all (конфигурация по умолчанию)

  • Описание конфигурации : используйте объединение всех абзацев в качестве статей и жирных строк в качестве справочных обзоров.

  • Сплит :

Трещина Примеры
'test' 5 577
'train' 157 252
'validation' 5 599
  • Особенности :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow / sep

  • Описание конфигурации : используйте каждый абзац и его резюме.

  • Сплит :

Трещина Примеры
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Особенности :
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})