Эта страница была переведа с помощью Cloud Translation API.
Switch to English

ag_news_subset

  • Описание :

AG - это коллекция из более чем 1 миллиона новостных статей. Новостные статьи были собраны ComeToMyHead из более чем 2000 новостных источников за более чем 1 год работы. ComeToMyHead - это поисковая система академических новостей, которая работает с июля 2004 года. Набор данных предоставляется академическим сообществом для исследовательских целей в области интеллектуального анализа данных (кластеризация, классификация и т.д.), поиска информации (ранжирование, поиск и т.д.), XML, сжатие данных, потоковая передача данных и любая другая некоммерческая деятельность. Для получения дополнительной информации перейдите по ссылке http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

Набор данных классификации новостных тем AG создан Сян Чжаном (xiang.zhang@nyu.edu) из набора данных выше. Он используется в качестве эталона классификации текста в следующей статье: Сян Чжан, Цзюньбо Чжао, Янн ЛеКун. Сверточные сети на уровне символов для классификации текста. Достижения в системах обработки нейронной информации 28 (NIPS 2015).

Набор данных классификации новостных тем создается путем выбора 4 самых больших классов из исходного корпуса. Каждый класс содержит 30 000 обучающих образцов и 1900 тестовых образцов. Общее количество обучающих выборок - 120 000, тестовых - 7600.

  • Домашняя страница : https://arxiv.org/abs/1509.01626

  • Исходный код : tfds.text.AGNewsSubset

  • Версии :

    • 1.0.0 (по умолчанию): без примечаний к выпуску.
  • Размер загрузки : 11.24 MiB

  • Размер набора данных : 35.79 MiB

  • Автоматическое кэширование ( документация ): Да

  • Сплит :

Трещина Примеры
'test' 7,600
'train' 120 000
  • Особенности :
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • Контролируемые ключи (см. as_supervised ): ('description', 'label')

  • Цитата :

@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}