imagenet2012

Genel olarak 'ImageNet' olarak bilinen ILSVRC 2012, WordNet hiyerarşisine göre düzenlenmiş bir görüntü veri kümesidir. WordNet'teki, muhtemelen birden fazla kelime veya kelime öbeği tarafından tanımlanan her anlamlı kavram, "eş anlamlı küme" veya "synset" olarak adlandırılır. WordNet'te 100.000'den fazla synset vardır ve bunların çoğu isimlerdir (80.000'den fazla). ImageNet'te, her bir sentezi göstermek için ortalama 1000 görüntü sağlamayı hedefliyoruz. Her konseptin görselleri kalite kontrollüdür ve insan açıklamalıdır. Tamamlandığında, ImageNet'in WordNet hiyerarşisindeki kavramların çoğu için temiz bir şekilde sıralanmış on milyonlarca görüntü sunacağını umuyoruz.

Test bölümü 100.000 resim içerir, ancak hiçbir etiket genel olarak yayınlanmadığından etiket içermez. 10 Ekim 2019'da yayınlanan küçük yama ile 2012'den itibaren test dağılımı için destek sağlıyoruz. Bu verileri manuel olarak indirmek için bir kullanıcının aşağıdaki işlemleri gerçekleştirmesi gerekir:

  1. 2012 test bölümünü buradan indirin.
  2. 10 Ekim 2019 yamasını indirin. Aynı sayfada sağlanan yamaya bir Google Drive bağlantısı var.
  3. Orijinal arşivdeki tüm görüntülerin üzerine yamadaki görüntüleri manuel olarak yazarak iki katran topunu birleştirin. image-net.org'daki talimatlara göre, bu prosedür yalnızca birkaç resmin üzerine yazar.

Ortaya çıkan katran topu daha sonra TFDS tarafından işlenebilir.

ImageNet test bölmesinde bir modelin doğruluğunu değerlendirmek için, bölmedeki tüm görüntüler üzerinde çıkarım yapılmalı, bu sonuçlar ImageNet değerlendirme sunucusuna yüklenmesi gereken bir metin dosyasına aktarılmalıdır. ImageNet değerlendirme sunucusunun sağlayıcıları, fazla uydurmayı önlemek için tek bir kullanıcının haftada 2 gönderi göndermesine izin verir.

Test bölümünün doğruluğunu değerlendirmek için önce image-net.org'da bir hesap oluşturulmalıdır. Bu hesap site yöneticisi tarafından onaylanmalıdır. Hesap oluşturulduktan sonra, sonuçlar https://image-net.org/challenges/LSVRC/eval_server.php adresindeki test sunucusuna gönderilebilir. Gönderim, birden çok göreve karşılık gelen birkaç ASCII metin dosyasından oluşur. İlgilenilen görev "Sınıflandırma gönderimi (ilk 5 cls hatası)" dır. Dışa aktarılan bir metin dosyası örneği aşağıdaki gibi görünür:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

Dışa aktarma formatı, burada bulunan 2013 geliştirme kiti içindeki "readme.txt" dosyasında tam olarak açıklanmıştır: https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz Lütfen "3.3 CLS-LOC" başlıklı bölüme bakın. gönderme biçimi". Kısaca, metin dosyasının formatı, test bölmesindeki her görüntüye karşılık gelen 100.000 satırdır. Her bir tamsayı satırı, her bir test görüntüsü için sıralı, ilk 5 tahmine karşılık gelir. Tamsayılar, karşılık gelen etiketler dosyasındaki satır numarasına karşılık gelen 1 dizinlidir. Bkz. tags.txt.

  • Ek Belgeler : Kodlu Belgeleri Keşfedin

  • Anasayfa : https://image-net.org/

  • Kaynak kodu : tfds.datasets.imagenet2012.Builder

  • sürümler :

    • 2.0.0 : Doğrulama etiketlerini düzeltin.
    • 2.0.1 : Kodlama düzeltmesi. Kullanıcı açısından değişiklik yok.
    • 3.0.0 : ~12 görüntüde renklendirmeyi düzeltin (CMYK -> RGB). Tutarlılık için biçimi düzeltin (tek png görüntüsünü Jpeg'e dönüştürün). Doğrudan arşivden daha hızlı nesil okuma.

    • 4.0.0 : (yayınlanmadı)

    • 5.0.0 : Yeni bölünmüş API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (varsayılan): Test bölümü eklendi.

  • İndirme boyutu : Unknown size

  • Veri kümesi boyutu : 155.84 GiB

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine indirmenizi gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ şeklindedir):
    manual_dir iki dosya içermelidir: ILSVRC2012_img_train.tar ve ILSVRC2012_img_val.tar. Veri setini indirme bağlantısını almak için https://image-net.org/download-images adresinden kayıt olmanız gerekmektedir.

  • Otomatik önbelleğe alınmış ( belgeleme ): Hayır

  • bölmeler :

Bölmek örnekler
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Özellik yapısı :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
dosya adı Metin sicim
görüntü resim (Yok, Yok, 3) uint8
etiket SınıfEtiketi int64

görselleştirme

  • Alıntı :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}