- תיאור:
AG היא אוסף של יותר ממיליון כתבות חדשות. כתבות חדשות נאספו מיותר מ -2000 מקורות חדשות על ידי ComeToMyHead ביותר משנה של פעילות. ComeToMyHead הוא מנוע חיפוש חדשות אקדמי הפועל מאז יולי 2004. מערך הנתונים מסופק על ידי הקהילה האקדמית למטרות מחקר בכריית נתונים (אשכולות, סיווג וכו '), אחזור מידע (דירוג, חיפוש וכו'), xml, דחיסת נתונים, הזרמת נתונים וכל פעילות לא מסחרית אחרת. לקבלת מידע נוסף, עיין בקישור http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
מערך הסיווג בנושא חדשות החדשות של AG נבנה על ידי שיאנג ג'אנג (xiang.zhang@nyu.edu) ממערך הנתונים שלמעלה. הוא משמש אמות מידה של סיווג טקסט במאמר הבא: שיאנג ג'אנג, ג'ונבו ג'או, יאאן לקון. רשתות בנייה ברמת תווים לסיווג טקסט. התקדמות במערכות עיבוד מידע עצבי 28 (NIPS 2015).
מערך הסיווג בנושא חדשות החדשות של AG נבנה על ידי בחירת 4 מחלקות גדולות מהקורפוס המקורי. כל שיעור מכיל 30,000 דגימות אימון ו -1,900 דוגמאות בדיקה. המספר הכולל של דגימות אימון הוא 120,000 ובדיקות 7,600.
דף הבית: https://arxiv.org/abs/1509.01626
קוד מקור:
tfds.text.AGNewsSubset
גרסאות:
-
1.0.0
(ברירת המחדל): הערות השחרור לא.
-
גודל ההורדה:
11.24 MiB
מערך נתונים גודל:
35.79 MiB
Auto-במטמון ( תיעוד ): כן
פיצולים:
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,600 |
'train' | 120,000 |
- מאפיינים:
FeaturesDict({
'description': Text(shape=(), dtype=tf.string),
'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
'title': Text(shape=(), dtype=tf.string),
})
מפתחות השגחה (ראה
as_supervised
doc ):('description', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט:
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}