imagenet2012

ILSVRC 2012, communément appelé « ImageNet » est un ensemble de données d'images organisé selon la hiérarchie WordNet. Chaque concept significatif dans WordNet, éventuellement décrit par plusieurs mots ou expressions de mots, est appelé un « ensemble de synonymes » ou « synset ». Il y a plus de 100 000 synsets dans WordNet, la majorité d'entre eux sont des noms (80 000+). Dans ImageNet, nous visons à fournir en moyenne 1000 images pour illustrer chaque synset. Les images de chaque concept sont de qualité contrôlée et annotées par l'homme. Dans son achèvement, nous espérons qu'ImageNet offrira des dizaines de millions d'images correctement triées pour la plupart des concepts de la hiérarchie WordNet.

Le fractionnement de test contient 100 000 images, mais aucun libellé, car aucun libellé n'a été publié. Nous assurons le support de la division de test à partir de 2012 avec le correctif mineur publié le 10 octobre 2019. Afin de télécharger manuellement ces données, un utilisateur doit effectuer les opérations suivantes :

  1. Télécharger la division test 2012 disponible ici .
  2. Téléchargez le patch du 10 octobre 2019. Il existe un lien Google Drive vers le correctif fourni sur la même page.
  3. Combinez les deux boules de goudron, en écrasant manuellement toutes les images de l'archive d'origine avec des images du patch. Selon les instructions sur image-net.org, cette procédure n'écrase que quelques images.

La boule de goudron résultante peut ensuite être traitée par TFDS.

Pour évaluer la précision d'un modèle sur la division de test ImageNet, il faut exécuter une inférence sur toutes les images de la division, exporter ces résultats vers un fichier texte qui doit être téléchargé sur le serveur d'évaluation ImageNet. Les responsables du serveur d'évaluation ImageNet permettent à un seul utilisateur de soumettre jusqu'à 2 soumissions par semaine afin d'éviter le surapprentissage.

Pour évaluer la précision sur la répartition du test, il faut d'abord créer un compte sur image-net.org. Ce compte doit être approuvé par l'administrateur du site. Une fois le compte créé, on peut soumettre les résultats au serveur de test à https://image-net.org/challenges/LSVRC/eval_server.php La présentation se compose de plusieurs fichiers texte ASCII correspondant à des tâches multiples. La tâche d'intérêt est « Soumission de la classification (erreur de top-5 cls) ». Un exemple de fichier texte exporté ressemble à ce qui suit :

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Le format d'exportation est décrit en détail dans « readme.txt » dans le kit de développement ici 2013: http://imagenet.stanford.edu/image/ilsvrc2013/ILSVRC2013_devkit.tgz S'il vous plaît voir la section intitulée « 3.3 Format de soumission CLS-LOC ". Brièvement, le format du fichier texte est de 100 000 lignes correspondant à chaque image de la division de test. Chaque ligne d'entiers correspond aux 5 premières prédictions classées par ordre pour chaque image de test. Les entiers sont indexés à 1 correspondant au numéro de ligne dans le fichier d'étiquettes correspondant. Voir imagenet2012_labels.txt.

  • Page d' accueil: http://image-net.org/

  • Code source: tfds.image_classification.Imagenet2012

  • versions:

    • 2.0.0 : Correction des étiquettes de validation.
    • 2.0.1 : codage correctif. Aucun changement du point de vue de l'utilisateur.
    • 3.0.0 : Correction colorisation sur ~ 12 images (CMJN -> RGB). Correction du format pour la cohérence (convertir l'image png unique en Jpeg). Lecture de génération plus rapide directement à partir de l'archive.

    • 4.0.0 : (non publié)

    • 5.0.0 : Nouvelle API split ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (par défaut): Test split Ajouté.

  • Taille du téléchargement: Unknown size

  • Taille Dataset: 155.84 GiB

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir doit contenir deux fichiers : ILSVRC2012_img_train.tar et ILSVRC2012_img_val.tar. Vous devez vous inscrire sur http://www.image-net.org/download-images afin d'obtenir le lien pour télécharger le jeu de données.

  • Mis en cache automatique ( documentation ): Non

  • scissions:

Diviser Exemples
'test' 100 000
'train' 1 281 167
'validation' 50 000
  • Caractéristiques:
FeaturesDict({
    'file_name': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1000),
})

Visualisation

  • citation:
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}