ag_news_subset

  • תיאור:

AG היא אוסף של יותר ממיליון כתבות חדשות. כתבות חדשות נאספו מיותר מ -2000 מקורות חדשות על ידי ComeToMyHead ביותר משנה של פעילות. ComeToMyHead הוא מנוע חיפוש חדשות אקדמי הפועל מאז יולי 2004. מערך הנתונים מסופק על ידי הקהילה האקדמית למטרות מחקר בכריית נתונים (אשכולות, סיווג וכו '), אחזור מידע (דירוג, חיפוש וכו'), xml, דחיסת נתונים, הזרמת נתונים וכל פעילות לא מסחרית אחרת. לקבלת מידע נוסף, עיין בקישור http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

מערך הסיווג בנושא חדשות החדשות של AG נבנה על ידי שיאנג ג'אנג (xiang.zhang@nyu.edu) ממערך הנתונים שלמעלה. הוא משמש אמות מידה של סיווג טקסט במאמר הבא: שיאנג ג'אנג, ג'ונבו ג'או, יאאן לקון. רשתות בנייה ברמת תווים לסיווג טקסט. התקדמות במערכות עיבוד מידע עצבי 28 (NIPS 2015).

מערך הסיווג בנושא חדשות החדשות של AG נבנה על ידי בחירת 4 מחלקות גדולות מהקורפוס המקורי. כל שיעור מכיל 30,000 דגימות אימון ו -1,900 דוגמאות בדיקה. המספר הכולל של דגימות אימון הוא 120,000 ובדיקות 7,600.

לְפַצֵל דוגמאות
'test' 7,600
'train' 120,000
  • מאפיינים:
FeaturesDict({
    'description': Text(shape=(), dtype=tf.string),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=4),
    'title': Text(shape=(), dtype=tf.string),
})
  • ציטוט:
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}