- Описание:
AG - это коллекция из более чем 1 миллиона новостных статей. Новостные статьи были собраны ComeToMyHead из более чем 2000 источников новостей за более чем 1 год работы. ComeToMyHead - это поисковая система академических новостей, которая работает с июля 2004 года. Набор данных предоставляется академическим сообществом для исследовательских целей в области интеллектуального анализа данных (кластеризация, классификация и т. Д.), Поиска информации (ранжирование, поиск и т. Д.), XML, сжатие данных, потоковая передача данных и любая другая некоммерческая деятельность. Для получения более подробной информации, пожалуйста , обратитесь к ссылке http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
Набор данных классификации новостных тем AG создан Сян Чжаном (xiang.zhang@nyu.edu) из набора данных выше. Он используется в качестве эталона классификации текста в следующей статье: Сян Чжан, Цзюньбо Чжао, Янн ЛеКун. Сверточные сети на уровне символов для классификации текста. Достижения в системах обработки нейронной информации 28 (NIPS 2015).
Набор данных классификации новостных тем построен путем выбора 4 самых больших классов из исходного корпуса. Каждый класс содержит 30 000 обучающих образцов и 1900 тестовых образцов. Общее количество обучающих выборок - 120 000, тестовых - 7600.
Домашняя страница: https://arxiv.org/abs/1509.01626
Исходный код:
tfds.text.AGNewsSubset
Версии:
-
1.0.0
( по умолчанию): Нет Замечания к выпуску.
-
Скачать Размер:
11.24 MiB
Dataset Размер:
35.79 MiB
Авто-кэшируются ( документация ): Да
расколы:
Расколоть | Примеры |
---|---|
'test' | 7,600 |
'train' | 120 000 |
- Особенности:
FeaturesDict({
'description': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
'title': Text(shape=(), dtype=tf.string),
})
Контролируемые ключи (см
as_supervised
документ ):('description', 'label')
Рис ( tfds.show_examples ): Не поддерживается.
Примеры ( tfds.as_dataframe ):
- Образец цитирования:
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}