imagenet2012_multilabel

با مجموعه‌ها، منظم بمانید ذخیره و دسته‌بندی محتوا براساس اولویت‌های شما.

  • توضیحات :

این مجموعه داده شامل تصاویر اعتبارسنجی ILSVRC-2012 (ImageNet) است که با برچسب‌های چند کلاسه از "Evaluating Machine Accuracy on ImageNet" ، ICML، 2020 حاشیه‌نویسی شده‌اند. برچسب‌های چند کلاسه توسط گروهی از کارشناسان که به طور گسترده در پیچیدگی‌های دقیق آموزش دیده بودند، بررسی شدند. تمایزهای طبقه بندی شده در سلسله مراتب کلاس ImageNet (برای جزئیات بیشتر به مقاله مراجعه کنید). در مقایسه با برچسب‌های اصلی، این برچسب‌های چند کلاسه بررسی شده توسط متخصص، ارزیابی دقیق‌تر از لحاظ معنایی منسجم را امکان‌پذیر می‌سازند.

نسخه 3.0.0 این مجموعه داده حاوی برچسب‌های تصحیح‌شده بیشتری است : «چه زمانی خمیر به یک نان شیرینی تبدیل می‌شود؟ تجزیه و تحلیل اشتباهات باقی‌مانده در ImageNet و همچنین تقسیم نمونه 68 ImageNet-Major (ImageNet-M) در زیر «imagenet-m».

تنها 20000 از 50000 تصویر اعتبارسنجی ImageNet دارای حاشیه نویسی چند برچسبی هستند. مجموعه چندین برچسب ابتدا توسط یک بستر آزمایشی متشکل از 67 مدل ImageNet آموزش دیده ایجاد شد، و سپس هر پیش‌بینی مدل به‌صورت دستی توسط کارشناسان به‌عنوان correct (برچسب برای تصویر صحیح است)، wrong (برچسب برای آن نادرست است، حاشیه‌نویسی شد. تصویر)، یا unclear (هیچ اتفاق نظری در بین کارشناسان حاصل نشد).

علاوه بر این، در طول حاشیه نویسی، پانل متخصص مجموعه ای از تصاویر مشکل دار را شناسایی کرد. اگر یک تصویر دارای یکی از معیارهای زیر باشد، مشکل ساز بود:

  • برچسب ImageNet اصلی (برچسب اول) نادرست یا نامشخص بود
  • تصویر یک طراحی، نقاشی، طرح، کارتون یا رندر کامپیوتری بود
  • تصویر بیش از حد ویرایش شد
  • تصویر محتوای نامناسبی داشت

تصاویر مشکل ساز در این مجموعه داده گنجانده شده اند، اما هنگام محاسبه دقت چند برچسبی باید نادیده گرفته شوند. علاوه بر این، از آنجایی که مجموعه اولیه 20000 حاشیه نویسی دارای کلاس متعادل است، اما مجموعه تصاویر مشکل دار نیست، توصیه می کنیم دقت هر کلاس را محاسبه کرده و سپس میانگین آنها را محاسبه کنید. ما همچنین توصیه می‌کنیم یک پیش‌بینی را در صورتی که به‌عنوان صحیح یا نامشخص علامت‌گذاری شده است، صحیح بشمارید (یعنی ملایم‌تر بودن با برچسب‌های نامشخص).

یکی از راه های ممکن برای انجام این کار با کد NumPy زیر است:

import tensorflow_datasets as tfds

ds = tfds.load('imagenet2012_multilabel', split='validation')

# We assume that predictions is a dictionary from file_name to a class index between 0 and 999

num_correct_per_class = {}
num_images_per_class = {}

for example in ds:
    # We ignore all problematic images
    if example[‘is_problematic’].numpy():
        continue

    # The label of the image in ImageNet
    cur_class = example['original_label'].numpy()

    # If we haven't processed this class yet, set the counters to 0
    if cur_class not in num_correct_per_class:
        num_correct_per_class[cur_class] = 0
        assert cur_class not in num_images_per_class
        num_images_per_class[cur_class] = 0

    num_images_per_class[cur_class] += 1

    # Get the predictions for this image
    cur_pred = predictions[example['file_name'].numpy()]

    # We count a prediction as correct if it is marked as correct or unclear
    # (i.e., we are lenient with the unclear labels)
    if cur_pred is in example['correct_multi_labels'].numpy() or cur_pred is in example['unclear_multi_labels'].numpy():
        num_correct_per_class[cur_class] += 1

# Check that we have collected accuracy data for each of the 1,000 classes
num_classes = 1000
assert len(num_correct_per_class) == num_classes
assert len(num_images_per_class) == num_classes

# Compute the per-class accuracies and then average them
final_avg = 0
for cid in range(num_classes):
  assert cid in num_correct_per_class
  assert cid in num_images_per_class
  final_avg += num_correct_per_class[cid] / num_images_per_class[cid]
final_avg /= num_classes

  • صفحه اصلی : https://github.com/modestyachts/evaluating_machine_accuracy_on_imagenet

  • کد منبع : tfds.datasets.imagenet2012_multilabel.Builder

  • نسخه ها :

    • 1.0.0 : انتشار اولیه.
    • 2.0.0 : فایل ILSVRC2012_img_val.tar ثابت شد.
    • 3.0.0 (پیش‌فرض): برچسب‌های اصلاح شده و تقسیم ImageNet-M.
  • حجم دانلود : 191.13 MiB

  • حجم مجموعه داده : 2.50 GiB

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir دانلود کنید (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir باید حاوی فایل ILSVRC2012_img_val.tar باشد. برای دریافت لینک دانلود مجموعه داده، باید در http://www.image-net.org/download-images ثبت نام کنید.

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'imagenet_m' 68
'validation' 20000
  • ساختار ویژگی :
FeaturesDict({
    'correct_multi_labels': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=1000)),
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_problematic': bool,
    'original_label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
    'unclear_multi_labels': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=1000)),
    'wrong_multi_labels': Sequence(ClassLabel(shape=(), dtype=int64, num_classes=1000)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
درست_چند_برچسب دنباله (ClassLabel) (هیچ یک،) int64
نام فایل متن رشته
تصویر تصویر (هیچ، هیچ، 3) uint8
is_problematic تانسور بوول
برچسب_اصلی ClassLabel int64
unclear_multi_labels دنباله (ClassLabel) (هیچ یک،) int64
اشتباه_چند_برچسب دنباله (ClassLabel) (هیچ یک،) int64

تجسم

  • نقل قول :
@article{shankar2019evaluating,
  title={Evaluating Machine Accuracy on ImageNet},
  author={Vaishaal Shankar* and Rebecca Roelofs* and Horia Mania and Alex Fang and Benjamin Recht and Ludwig Schmidt},
  journal={ICML},
  year={2020},
  note={\url{http://proceedings.mlr.press/v119/shankar20c.html} }
}
@article{ImageNetChallenge,
  title={ {ImageNet} large scale visual recognition challenge},
  author={Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause
   and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and
   Alexander C. Berg and Fei-Fei Li},
  journal={International Journal of Computer Vision},
  year={2015},
  note={\url{https://arxiv.org/abs/1409.0575} }
}
@inproceedings{ImageNet,
   author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
   booktitle={Conference on Computer Vision and Pattern Recognition (CVPR)},
   title={ {ImageNet}: A large-scale hierarchical image database},
   year={2009},
   note={\url{http://www.image-net.org/papers/imagenet_cvpr09.pdf} }
}
@article{vasudevan2022does,
  title={When does dough become a bagel? Analyzing the remaining mistakes on ImageNet},
  author={Vasudevan, Vijay and Caine, Benjamin and Gontijo-Lopes, Raphael and Fridovich-Keil, Sara and Roelofs, Rebecca},
  journal={arXiv preprint arXiv:2205.04596},
  year={2022}
}