imagenet2012

Yaygın olarak 'ImageNet' olarak bilinen ILSVRC 2012, WordNet hiyerarşisine göre düzenlenmiş bir görüntü veri kümesidir. WordNet'te muhtemelen birden fazla kelime veya kelime öbeği ile tanımlanan her anlamlı kavram, "eş anlamlı küme" veya "eş anlamlı küme" olarak adlandırılır. WordNet'te 100.000'den fazla synset vardır, bunların çoğu isimdir (80.000+). ImageNet'te, her bir synset'i göstermek için ortalama 1000 görüntü sağlamayı amaçlıyoruz. Her konseptin görüntüleri kalite kontrollüdür ve insan açıklamalıdır. Tamamlandığında, ImageNet'in WordNet hiyerarşisindeki kavramların çoğu için on milyonlarca temiz şekilde sıralanmış görüntü sunacağını umuyoruz.

Test bölümü 100.000 görüntü içeriyor, ancak hiçbir etiket herkese açık olarak yayınlanmadığından etiket yok. 10 Ekim 2019'da yayınlanan küçük yama ile 2012'den itibaren test ayrımı için destek sağlıyoruz. Bu verileri manuel olarak indirmek için bir kullanıcının aşağıdaki işlemleri yapması gerekir:

  1. 2012 test bölümünü buradan indirin.
  2. 10 Ekim 2019 yamasını indirin. Aynı sayfada sağlanan yamanın bir Google Drive bağlantısı var.
  3. İki katran topunu birleştirin, orijinal arşivdeki herhangi bir görüntünün üzerine yamadaki görüntüleri manuel olarak yazın. image-net.org'daki talimatlara göre, bu prosedür sadece birkaç resmin üzerine yazar.

Elde edilen katran topu daha sonra TFDS tarafından işlenebilir.

ImageNet test bölmesinde bir modelin doğruluğunu değerlendirmek için, bölmedeki tüm görüntüler üzerinde çıkarım yapılmalı, bu sonuçlar ImageNet değerlendirme sunucusuna yüklenmesi gereken bir metin dosyasına aktarılmalıdır. ImageNet değerlendirme sunucusunun koruyucuları, fazla takmayı önlemek için tek bir kullanıcının haftada 2'ye kadar gönderi göndermesine izin verir.

Test bölümündeki doğruluğu değerlendirmek için önce image-net.org'da bir hesap oluşturulmalıdır. Bu hesap site yöneticisi tarafından onaylanmalıdır. Hesap oluşturulduktan sonra, sonuçlar https://image-net.org/challenges/LSVRC/eval_server.php adresindeki test sunucusuna gönderilebilir. Gönderim, birden fazla göreve karşılık gelen birkaç ASCII metin dosyasından oluşur. İlgilenilen görev "Sınıf gönderimi (ilk 5 cls hatası)" dır. Dışa aktarılan bir metin dosyası örneği aşağıdaki gibi görünür:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Dışa aktarma biçimi, burada bulunan 2013 geliştirme kiti içinde "benioku.txt" içinde tam olarak açıklanmıştır: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Lütfen "3.3 CLS-LOC" başlıklı bölüme bakın Gönderim biçimi". Kısaca, metin dosyasının formatı, test bölümündeki her bir görüntüye karşılık gelen 100.000 satırdır. Her tamsayı satırı, her test görüntüsü için sıralı, ilk 5 tahmine karşılık gelir. Tamsayılar, karşılık gelen etiketler dosyasındaki satır numarasına karşılık gelen 1 dizinlidir. imagenet2012_labels.txt'ye bakın.

  • Ana sayfa : https://image-net.org/

  • Kaynak kodu : tfds.image_classification.Imagenet2012

  • Sürümler :

    • 2.0.0 : Doğrulama etiketlerini düzeltin.
    • 2.0.1 : Kodlama düzeltmesi. Kullanıcı açısından herhangi bir değişiklik yok.
    • 3.0.0 : ~12 görüntüde renklendirmeyi düzeltin (CMYK -> RGB). Tutarlılık için formatı düzeltin (tek png görüntüsünü Jpeg'e dönüştürün). Doğrudan arşivden daha hızlı nesil okuma.

    • 4.0.0 : (yayınlanmadı)

    • 5.0.0 : Yeni bölünmüş API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (varsayılan): Test bölümü eklendi.

  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : 155.84 GiB

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri download_config.manual_dir içine manuel olarak download_config.manual_dir gerektirir (varsayılanı ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir iki dosya içermelidir: ILSVRC2012_img_train.tar ve ILSVRC2012_img_val.tar. Veri setini indirme bağlantısını almak için https://image-net.org/download-images adresinden kayıt olmanız gerekmektedir.

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Özellik yapısı :
FeaturesDict({
    'file_name': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1000),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
dosya adı Metin tf.string
resim resim (Yok, Yok, 3) tf.uint8
etiket sınıf etiketi tf.int64

görselleştirme

  • alıntı :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}