لدي سؤال؟ تواصل مع المجتمع في منتدى زيارة منتدى TensorFlow

ag_news_subset

  • الوصف :

AG عبارة عن مجموعة من أكثر من مليون مقال إخباري. تم جمع المقالات الإخبارية من أكثر من 2000 مصدر إخباري بواسطة ComeToMyHead في أكثر من عام من النشاط. ComeToMyHead هو محرك بحث إخباري أكاديمي تم تشغيله منذ يوليو 2004. يتم توفير مجموعة البيانات من قبل المجتمع الأكاديمي لأغراض البحث في استخراج البيانات (التجميع ، التصنيف ، إلخ) ، استرجاع المعلومات (الترتيب ، البحث ، إلخ) ، xml ، ضغط البيانات وتدفق البيانات وأي نشاط غير تجاري آخر. لمزيد من المعلومات ، يرجى الرجوع إلى الرابط http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

تم إنشاء مجموعة بيانات تصنيف موضوعات أخبار AG بواسطة Xiang Zhang (xiang.zhang@nyu.edu) من مجموعة البيانات أعلاه. يتم استخدامه كمعيار لتصنيف النص في الورقة التالية: Xiang Zhang ، Junbo Zhao ، Yann LeCun. الشبكات التلافيفية على مستوى الأحرف لتصنيف النص. التطورات في أنظمة معالجة المعلومات العصبية 28 (NIPS 2015).

يتم إنشاء مجموعة بيانات تصنيف موضوعات الأخبار الخاصة بـ AG باختيار 4 فئات أكبر من المجموعة الأصلية. يحتوي كل فصل على 30000 عينة تدريب و 1900 عينة اختبار. العدد الإجمالي لعينات التدريب 120000 و 7600 اختبار.

  • الصفحة الرئيسية https://arxiv.org/abs/1509.01626

  • كود المصدر : tfds.text.AGNewsSubset

  • الإصدارات :

    • 1.0.0 (افتراضي): لا توجد ملاحظات حول الإصدار.
  • حجم التحميل : 11.24 MiB

  • حجم مجموعة البيانات : 35.79 MiB

  • التخزين المؤقت التلقائي ( الوثائق ): نعم

  • الانقسامات :

انشق، مزق أمثلة
'test' 7600
'train' 120000
  • الميزات :
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • الاقتباس :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}