- توضیحات :
AG مجموعه ای متشکل از بیش از 1 میلیون مقاله خبری است. مقالات خبری در بیش از 1 سال فعالیت از طریق بیش از 2000 منبع خبری توسط ComeToMyHead جمع آوری شده است. ComeToMyHead یک موتور جستجوی اخبار علمی است که از جولای 2004 شروع به کار کرده است. این مجموعه داده توسط انجمن دانشگاهی برای اهداف تحقیق در استخراج داده ها (خوشه بندی ، طبقه بندی و غیره) ، بازیابی اطلاعات (رتبه بندی ، جستجو و غیره) ، xml ، ارائه می شود. فشرده سازی داده ها ، جریان داده ها و سایر فعالیت های غیر تجاری. برای اطلاعات بیشتر ، لطفاً به پیوند http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html مراجعه کنید .
مجموعه اطلاعات طبقه بندی موضوع خبری AG توسط شیانگ ژانگ (xiang.zhang@nyu.edu) از مجموعه داده بالا ساخته شده است. در مقاله زیر به عنوان معیار طبقه بندی متن استفاده می شود: شیانگ ژانگ ، جونبو ژائو ، یان لکون. شبکه های پیوندی در سطح شخصیت برای طبقه بندی متن. پیشرفت در سیستم های پردازش اطلاعات عصبی 28 (NIPS 2015).
مجموعه اطلاعات طبقه بندی موضوع خبری AG با انتخاب 4 کلاس بزرگ از مجموعه اصلی ساخته شده است. هر کلاس شامل 30،000 نمونه آموزش و 1900 نمونه آزمایش است. تعداد کل نمونه های آموزشی 120،000 و آزمایش 7،600 نمونه است.
صفحه اصلی : https://arxiv.org/abs/1509.01626
کد منبع :
tfds.text.AGNewsSubset
نسخه ها :
-
1.0.0
(پیش فرض): بدون یادداشت انتشار.
-
اندازه بارگیری :
11.24 MiB
اندازه مجموعه داده :
35.79 MiB
ذخیره خودکار ( مستندات ): بله
تقسیم :
شکاف | مثال ها |
---|---|
'test' | 7،600 |
'train' | 120،000 |
- ویژگی ها :
FeaturesDict({
'description': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
'title': Text(shape=(), dtype=tf.string),
})
کلیدهای تحت نظارت (به
as_supervised
سند نظارت شده مراجعه کنید):('description', 'label')
نقل قول :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
شکل ( tfds.show_examples ): پشتیبانی نمی شود.
مثالها ( tfds.as_dataframe ):