ag_news_subset

  • תיאור :

AG הוא אוסף של יותר ממיליון כתבות חדשות. כתבות חדשות נאספו מיותר מ-2000 מקורות חדשות על ידי ComeToMyHead במשך יותר משנה של פעילות. ComeToMyHead הוא מנוע חיפוש חדשותי אקדמי הפועל מאז יולי, 2004. מערך הנתונים מסופק על ידי הקהילה האקדמית למטרות מחקר בכריית נתונים (אשכול, סיווג וכו'), אחזור מידע (דירוג, חיפוש וכו'), xml, דחיסת נתונים, הזרמת נתונים וכל פעילות לא מסחרית אחרת. למידע נוסף, עיין בקישור http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .

מערך הנתונים לסיווג נושא החדשות של AG נבנה על ידי Xiang Zhang (xiang.zhang@nyu.edu) מתוך מערך הנתונים שלמעלה. הוא משמש כמבחן סיווג טקסט במאמר הבא: Xiang Zhang, Junbo Zhao, Yann LeCun. רשתות קונבולוציוניות ברמת הדמות לסיווג טקסט. התקדמות במערכות עיבוד מידע עצבי 28 (NIPS 2015).

מערך הנתונים של סיווג נושאי החדשות של AG נבנה על ידי בחירת 4 המחלקות הגדולות ביותר מהקורפוס המקורי. כל שיעור מכיל 30,000 דגימות הדרכה ו-1,900 דגימות בדיקה. המספר הכולל של דגימות הכשרה הוא 120,000 ובדיקות 7,600.

לְפַצֵל דוגמאות
'test' 7,600
'train' 120,000
  • מבנה תכונה :
FeaturesDict({
    'description': Text(shape=(), dtype=string),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
    'title': Text(shape=(), dtype=string),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
תיאור טֶקסט חוּט
תווית ClassLabel int64
כותרת טֶקסט חוּט
  • ציטוט :
@misc{zhang2015characterlevel,
    title={Character-level Convolutional Networks for Text Classification},
    author={Xiang Zhang and Junbo Zhao and Yann LeCun},
    year={2015},
    eprint={1509.01626},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}