- תיאור :
AG הוא אוסף של יותר ממיליון כתבות חדשות. כתבות חדשות נאספו מיותר מ-2000 מקורות חדשות על ידי ComeToMyHead במשך יותר משנה של פעילות. ComeToMyHead הוא מנוע חיפוש חדשותי אקדמי הפועל מאז יולי, 2004. מערך הנתונים מסופק על ידי הקהילה האקדמית למטרות מחקר בכריית נתונים (אשכול, סיווג וכו'), אחזור מידע (דירוג, חיפוש וכו'), xml, דחיסת נתונים, הזרמת נתונים וכל פעילות לא מסחרית אחרת. למידע נוסף, עיין בקישור http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html .
מערך הנתונים לסיווג נושא החדשות של AG נבנה על ידי Xiang Zhang (xiang.zhang@nyu.edu) מתוך מערך הנתונים שלמעלה. הוא משמש כמבחן סיווג טקסט במאמר הבא: Xiang Zhang, Junbo Zhao, Yann LeCun. רשתות קונבולוציוניות ברמת הדמות לסיווג טקסט. התקדמות במערכות עיבוד מידע עצבי 28 (NIPS 2015).
מערך הנתונים של סיווג נושאי החדשות של AG נבנה על ידי בחירת 4 המחלקות הגדולות ביותר מהקורפוס המקורי. כל שיעור מכיל 30,000 דגימות הדרכה ו-1,900 דגימות בדיקה. המספר הכולל של דגימות הכשרה הוא 120,000 ובדיקות 7,600.
תיעוד נוסף : חקור על ניירות עם קוד
דף הבית : https://arxiv.org/abs/1509.01626
קוד מקור :
tfds.datasets.ag_news_subset.Builder
גרסאות :
-
1.0.0
(ברירת מחדל): אין הערות שחרור.
-
גודל הורדה :
11.24 MiB
גודל מערך נתונים :
35.79 MiB
שמור אוטומטי במטמון ( תיעוד ): כן
פיצולים :
לְפַצֵל | דוגמאות |
---|---|
'test' | 7,600 |
'train' | 120,000 |
- מבנה תכונה :
FeaturesDict({
'description': Text(shape=(), dtype=string),
'label': ClassLabel(shape=(), dtype=int64, num_classes=4),
'title': Text(shape=(), dtype=string),
})
- תיעוד תכונה :
תכונה | מעמד | צוּרָה | Dtype | תיאור |
---|---|---|---|---|
FeaturesDict | ||||
תיאור | טֶקסט | חוּט | ||
תווית | ClassLabel | int64 | ||
כותרת | טֶקסט | חוּט |
מפתחות בפיקוח (ראה
as_supervised
doc ):('description', 'label')
איור ( tfds.show_examples ): לא נתמך.
דוגמאות ( tfds.as_dataframe ):
- ציטוט :
@misc{zhang2015characterlevel,
title={Character-level Convolutional Networks for Text Classification},
author={Xiang Zhang and Junbo Zhao and Yann LeCun},
year={2015},
eprint={1509.01626},
archivePrefix={arXiv},
primaryClass={cs.LG}
}