imagenet2012_subset

תיאור :

ILSVRC 2012, הידוע בכינויו 'ImageNet' הוא מערך נתונים המאורגן לפי ההיררכיה של WordNet. כל מושג בעל משמעות ב-WordNet, המתואר אולי על ידי מספר מילים או ביטויי מילים, נקרא "סט מילים נרדפות" או "synset". יש יותר מ-100,000 synsets ב-WordNet, רובם הם שמות עצם (80,000+). ב-ImageNet, אנו שואפים לספק בממוצע 1000 תמונות כדי להמחיש כל synset. התמונות של כל קונספט מבוקרות איכות ומוערות אנושיות. בהשלמתו, אנו מקווים ש-ImageNet תציע עשרות מיליוני תמונות ממוינות בצורה נקייה עבור רוב המושגים בהיררכיית WordNet.

פיצול הבדיקה מכיל 100K תמונות אך ללא תוויות מכיוון שלא פורסמו תוויות לציבור. אנו מספקים תמיכה לפיצול הבדיקה משנת 2012 עם התיקון הקטן שפורסם ב-10 באוקטובר 2019. על מנת להוריד נתונים אלה באופן ידני, על המשתמש לבצע את הפעולות הבאות:

הורד את חלוקת המבחנים לשנת 2012 הזמין כאן .
הורד את התיקון של 10 באוקטובר 2019. יש קישור של Google Drive לתיקון המסופק באותו עמוד.
שלב את שני כדורי הזפת, החלף ידנית כל תמונה בארכיון המקורי עם תמונות מהתיקון. לפי ההוראות ב-image-net.org, הליך זה מחליף רק כמה תמונות.

לאחר מכן ניתן לעבד את כדור הזפת שנוצר על ידי TFDS.

כדי להעריך את הדיוק של מודל בפיצול הבדיקה של ImageNet, יש להפעיל הסקה על כל התמונות בפיצול, לייצא את התוצאות הללו לקובץ טקסט שיש להעלות לשרת ההערכה של ImageNet. מנהלי שרת ההערכה ImageNet מאפשרים למשתמש יחיד להגיש עד 2 הגשות בשבוע על מנת למנוע התאמה יתר.

כדי להעריך את הדיוק בפיצול הבדיקה, יש ליצור תחילה חשבון ב-image-net.org. חשבון זה חייב להיות מאושר על ידי מנהל האתר. לאחר יצירת החשבון, ניתן לשלוח את התוצאות לשרת הבדיקה בכתובת https://image-net.org/challenges/LSVRC/eval_server.php ההגשה מורכבת ממספר קבצי טקסט ASCII התואמים למספר משימות. משימת העניין היא "הגשת סיווג (שגיאת 5 CLS)". דוגמה של קובץ טקסט מיוצא נראה כך:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

פורמט הייצוא מתואר במלואו ב-"readme.txt" בערכת הפיתוח של 2013 הזמינה כאן: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz אנא עיין בסעיף שכותרתו "3.3 CLS-LOC פורמט הגשה". בקצרה, הפורמט של קובץ הטקסט הוא 100,000 שורות המתאימות לכל תמונה בפיצול הבדיקה. כל שורה של מספרים שלמים תואמת את 5 התחזיות המובילות לפי הדרגה עבור כל תמונת בדיקה. המספרים השלמים נמצאים באינדקס 1 המתאים למספר השורה בקובץ התוויות המתאים. ראה labels.txt.

דף הבית : http://image-net.org/
קוד מקור : tfds.datasets.imagenet2012_subset.Builder
גרסאות :
- 2.0.0 : תקן תוויות אימות.
- 2.0.1 : תיקון קידוד. אין שינויים מנקודת המבט של המשתמש.
- 3.0.0 : תקן את הצבעוניות על ~12 תמונות (CMYK -> RGB). תקן פורמט לעקביות (המר את תמונת ה-png הבודדת ל-Jpeg). קריאה מהירה יותר מהדור ישירות מהארכיון.
- 4.0.0 : (לא פורסם)
- 5.0.0 (ברירת מחדל): API חדש מפוצל ( https://tensorflow.org/datasets/splits )
- 5.1.0 : נוסף פיצול בדיקה.
הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
manual_dir צריך להכיל שני קבצים: ILSVRC2012_img_train.tar ו-ILSVRC2012_img_val.tar. עליך להירשם בכתובת https://image-net.org/download-images כדי לקבל את הקישור להורדת מערך הנתונים.
שמור אוטומטי במטמון ( תיעוד ): לא
מבנה תכונה :

FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})

תיעוד תכונה :

תכונה	מַחלָקָה	צוּרָה	Dtype
	FeaturesDict
file_name	טֶקסט		חוּט
תְמוּנָה	תְמוּנָה	(אין, אין, 3)	uint8
מַדבֵּקָה	ClassLabel		int64

מפתחות בפיקוח (ראה as_supervised doc ): ('image', 'label')
ציטוט :

@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}