Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

отдел новостей

  • Описание :

NEWSROOM — это большой набор данных для обучения и оценки систем обобщения. Он содержит 1,3 миллиона статей и резюме, написанных авторами и редакторами в отделах новостей 38 крупных изданий.

Функции набора данных включают в себя: - текст: ввод текста новостей. - резюме: резюме для новостей. И дополнительные возможности: - title: заголовок новости. - url: адрес новости. - дата: дата статьи. - плотность: экстрактивная плотность. - покрытие: экстрактивное покрытие. - сжатие: степень сжатия. -density_bin: низкая, средняя, ​​высокая. -coverage_bin: экстрактивное, абстрактное. - сжатие_bin: низкое, среднее, высокое.

Этот набор данных можно загрузить по запросу. Разархивируйте все содержимое «train.jsonl, dev.josnl, test.jsonl» в папку tfds.

  • Домашняя страница : https://summari.es

  • Исходный код : tfds.summarization.Newsroom

  • Версии :

    • 1.0.0 (по умолчанию): нет примечаний к выпуску.
  • Размер загрузки : Unknown size

  • Размер набора данных : Unknown size

  • Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Вы должны загрузить набор данных с https://summari.es/download/ . Веб-страница требует регистрации. После загрузки поместите файлы dev.jsonl, test.jsonl и train.jsonl в manual_dir.

  • Автокэширование ( документация ): неизвестно

  • Сплиты :

Расколоть Примеры
'test' 108 862
'train' 995 041
'validation' 108 837
  • Структура функции :
FeaturesDict({
    'compression': tf.float32,
    'compression_bin': Text(shape=(), dtype=tf.string),
    'coverage': tf.float32,
    'coverage_bin': Text(shape=(), dtype=tf.string),
    'date': Text(shape=(), dtype=tf.string),
    'density': tf.float32,
    'density_bin': Text(shape=(), dtype=tf.string),
    'summary': Text(shape=(), dtype=tf.string),
    'text': Text(shape=(), dtype=tf.string),
    'title': Text(shape=(), dtype=tf.string),
    'url': Text(shape=(), dtype=tf.string),
})
  • Документация по функциям :
Характерная черта Сорт Форма Dтип Описание
ОсобенностиDict
компрессия Тензор tf.float32
сжатие_bin Текст tf.string
покрытие Тензор tf.float32
покрытие_bin Текст tf.string
Дата Текст tf.string
плотность Тензор tf.float32
плотность_bin Текст tf.string
резюме Текст tf.string
текст Текст tf.string
заглавие Текст tf.string
URL Текст tf.string
  • Цитата :
@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}