отдел новостей

Описание :

NEWSROOM — это большой набор данных для обучения и оценки систем обобщения. Он содержит 1,3 миллиона статей и резюме, написанных авторами и редакторами в отделах новостей 38 крупных изданий.

Функции набора данных включают в себя:

текст: введите текст новости.
Сводка: Сводка к новостям.

И дополнительные возможности:

заголовок: заголовок новости.
url: адрес новости.
дата: дата статьи.
плотность: экстрактивная плотность.
покрытие: экстрактивное покрытие.
сжатие: степень сжатия.
Density_bin: низкая, средняя, высокая.
coverage_bin: извлекающий, абстрактный.
сжатие_bin: низкое, среднее, высокое.

Этот набор данных можно загрузить по запросу. Разархивируйте все содержимое «train.jsonl, dev.jsonl, test.jsonl» в папку tfds.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://summari.es
Исходный код : tfds.datasets.newsroom.Builder
Версии :
- 1.0.0 (по умолчанию): нет примечаний к выпуску.
Размер загрузки : Unknown size
Размер набора данных : 5.13 GiB
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Вы должны загрузить набор данных с https://summari.es/download/ . Веб-страница требует регистрации. После загрузки поместите файлы dev.jsonl, test.jsonl и train.jsonl в manual_dir.
Автоматическое кэширование ( документация ): Нет
Сплиты :

Расколоть	Примеры
`'test'`	108 862
`'train'`	995 041
`'validation'`	108 837

Структура функции :

FeaturesDict({
    'compression': float32,
    'compression_bin': Text(shape=(), dtype=string),
    'coverage': float32,
    'coverage_bin': Text(shape=(), dtype=string),
    'date': Text(shape=(), dtype=string),
    'density': float32,
    'density_bin': Text(shape=(), dtype=string),
    'summary': Text(shape=(), dtype=string),
    'text': Text(shape=(), dtype=string),
    'title': Text(shape=(), dtype=string),
    'url': Text(shape=(), dtype=string),
})

Документация по функциям :

Особенность	Сорт	Dтип
	ОсобенностиDict
компрессия	Тензор	поплавок32
сжатие_bin	Текст	нить
покрытие	Тензор	поплавок32
покрытие_bin	Текст	нить
дата	Текст	нить
плотность	Тензор	поплавок32
плотность_bin	Текст	нить
резюме	Текст	нить
текст	Текст	нить
заголовок	Текст	нить
URL	Текст	нить

Контролируемые ключи (см. as_supervised doc ): ('text', 'summary')
Рисунок ( tfds.show_examples ): не поддерживается.
Примеры ( tfds.as_dataframe ):

Цитата :

@article{Grusky_2018,
   title={Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies},
   url={http://dx.doi.org/10.18653/v1/n18-1065},
   DOI={10.18653/v1/n18-1065},
   journal={Proceedings of the 2018 Conference of the North American Chapter of
          the Association for Computational Linguistics: Human Language
          Technologies, Volume 1 (Long Papers)},
   publisher={Association for Computational Linguistics},
   author={Grusky, Max and Naaman, Mor and Artzi, Yoav},
   year={2018}
}

отдел новостей Оптимизируйте свои подборки Сохраняйте и классифицируйте контент в соответствии со своими настройками.

отдел новостей