Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

wikihow

  • Описание:

WikiHow новый крупномасштабный набор данных с помощью онлайн WikiHow ( http://www.wikihow.com/ базы знаний).

Есть две функции: - текст: тексты ответов wikihow. - заголовок: жирные строки в качестве резюме.

Существует две отдельные версии: - all: состоящая из объединения всех абзацев в качестве статей и жирных строк в качестве справочных материалов. - sep: состоит из каждого абзаца и его резюме.

Скачать «wikihowAll.csv» и «wikihowSep.csv» от https://github.com/mahnazkoupaee/WikiHow-Dataset и место их в ручной папке https://www.tensorflow.org/datasets/api_docs/python/tfds/ скачать / DownloadConfig Поезд / проверки / тестирования расколы предоставляются авторами. Предварительная обработка применяется для удаления коротких статей (длина аннотации <0,75 длины статьи) и удаления лишних запятых.

  • Домашняя страница: https://github.com/mahnazkoupaee/WikiHow-Dataset

  • Исходный код: tfds.summarization.Wikihow

  • Версии:

    • 1.2.0 ( по умолчанию): Нет Замечания к выпуску.
  • Скачать Размер: 5.21 MiB

  • Dataset размер: Unknown size

  • Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в download_config.manual_dir ( по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Ссылки на файлы могут быть найдены на https://github.com/mahnazkoupaee/WikiHow-Dataset Пожалуйста , скачайте оба wikihowAll.csv и wikihowSep.csv.

  • Авто-кэшируются ( документация ): Unknown

  • Контролируемые ключи (см as_supervised документ ): ('text', 'headline')

  • Рис ( tfds.show_examples ): Не поддерживается.

  • Образец цитирования:

@misc{koupaee2018wikihow,
    title={WikiHow: A Large Scale Text Summarization Dataset},
    author={Mahnaz Koupaee and William Yang Wang},
    year={2018},
    eprint={1810.09305},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

wikihow / all (конфигурация по умолчанию)

  • Описание Config: Используйте конкатенацию всех пунктов , как статьи и жирные линии , как ссылочное резюме

  • расколы:

Расколоть Примеры
'test' 5 577
'train' 157 252
'validation' 5 599
  • Особенности:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})

wikihow / sep

  • Описание Config: использовать каждый пункт и его резюме.

  • расколы:

Расколоть Примеры
'test' 37 800
'train' 1 060 732
'validation' 37 932
  • Особенности:
FeaturesDict({
    'headline': Text(shape=(), dtype=tf.string),
    'overview': Text(shape=(), dtype=tf.string),
    'sectionLabel': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
})