الصور 2012

ILSVRC 2012 ، المعروفة باسم "ImageNet" هي مجموعة بيانات للصور منظمة وفقًا لتسلسل WordNet الهرمي. يُطلق على كل مفهوم ذي مغزى في WordNet ، والذي يمكن وصفه بكلمات أو عبارات كلمات متعددة ، "مجموعة مرادفات" أو "synset". يوجد أكثر من 100،000 synsets في WordNet ، معظمها من الأسماء (80،000+). في ImageNet ، نهدف إلى توفير 1000 صورة في المتوسط ​​لتوضيح كل مزامنة. يتم التحكم في جودة الصور الخاصة بكل مفهوم وتوضيحها بواسطة الإنسان. في اكتمالها ، نأمل أن تقدم ImageNet عشرات الملايين من الصور مرتبة بشكل نظيف لمعظم المفاهيم في تسلسل WordNet الهرمي.

يحتوي قسم الاختبار على 100 ألف صورة ولكن لا توجد تسميات لأنه لم يتم إصدار أي تسميات بشكل عام. نحن نقدم الدعم لتقسيم الاختبار من عام 2012 مع التصحيح الثانوي الذي تم إصداره في 10 أكتوبر 2019. لتنزيل هذه البيانات يدويًا ، يجب على المستخدم إجراء العمليات التالية:

  1. قم بتنزيل نسخة الاختبار لعام 2012 المتوفرة هنا .
  2. قم بتنزيل التصحيح 10 أكتوبر 2019. يوجد رابط Google Drive للتصحيح متوفر في نفس الصفحة.
  3. اجمع بين كرتَي القطران ، واكتب يدويًا فوق أي صور في الأرشيف الأصلي بصور من التصحيح. وفقًا للتعليمات الموجودة على image-net.org ، فإن هذا الإجراء يحل محل عدد قليل من الصور.

يمكن بعد ذلك معالجة كرة القطران الناتجة بواسطة TFDS.

لتقييم دقة نموذج في قسم اختبار ImageNet ، يجب على المرء تشغيل الاستدلال على جميع الصور في التقسيم ، وتصدير هذه النتائج إلى ملف نصي يجب تحميله على خادم تقييم ImageNet. يسمح المشرفون على خادم تقييم ImageNet لمستخدم واحد بإرسال ما يصل إلى 2 من التقديمات في الأسبوع من أجل منع الإفراط في التجهيز.

لتقييم الدقة في تقسيم الاختبار ، يجب على المرء أولاً إنشاء حساب على image-net.org. يجب الموافقة على هذا الحساب من قبل مسؤول الموقع. بعد إنشاء الحساب ، يمكن للمرء إرسال النتائج إلى خادم الاختبار على https://image-net.org/challenges/LSVRC/eval_server.php يتكون الإرسال من عدة ملفات نصية ASCII تتوافق مع مهام متعددة. مهمة الاهتمام هي "تقديم التصنيف (أعلى 5 cls خطأ)". تبدو عينة من ملف نصي مُصدَّر كما يلي:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

تم وصف تنسيق التصدير بالكامل في "readme.txt" ضمن مجموعة أدوات التطوير لعام 2013 المتوفرة هنا: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz يرجى الاطلاع على القسم المعنون "3.3 CLS-LOC تنسيق التقديم ". باختصار ، تنسيق الملف النصي هو 100000 سطر مطابق لكل صورة في تقسيم الاختبار. يتوافق كل سطر من الأعداد الصحيحة مع أعلى 5 تنبؤات مرتبة مرتبة لكل صورة اختبار. الأعداد الصحيحة مفهرسة بـ 1 مقابل رقم السطر في ملف الملصقات المقابل. انظر labels.txt.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية https://image-net.org/

  • كود المصدر : tfds.datasets.imagenet2012.Builder

  • إصدارات :

    • 2.0.0 : إصلاح بطاقات التحقق من الصحة.
    • 2.0.1 : إصلاح الترميز. لا توجد تغييرات من وجهة نظر المستخدم.
    • 3.0.0 : إصلاح التلوين على 12 صورة تقريبًا (CMYK -> RGB). تنسيق ثابت من أجل التناسق (تحويل صورة png المفردة إلى Jpeg). جيل أسرع قراءة مباشرة من الأرشيف.

    • 4.0.0 : (غير منشورة)

    • 5.0.0 : واجهة برمجة تطبيقات جديدة مقسمة ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (افتراضي): تمت إضافة تقسيم تجريبي.

  • حجم التنزيل : Unknown size

  • حجم مجموعة البيانات : 155.84 GiB

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    يجب أن يحتوي manual_dir على ملفين: ILSVRC2012_img_train.tar و ILSVRC2012_img_val.tar. تحتاج إلى التسجيل على https://image-net.org/download-images للحصول على الرابط لتنزيل مجموعة البيانات.

  • التخزين المؤقت التلقائي ( التوثيق ): لا

  • الانقسامات :

انشق، مزق أمثلة
'test' 100،000
'train' 1،281،167
'validation' 50000
  • هيكل الميزة :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
اسم الملف نص سلسلة
صورة صورة (لا شيء ، لا شيء ، 3) uint8
ضع الكلمة المناسبة ClassLabel int64

التصور

  • الاقتباس :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}