kontrolowane_noisy_web_labels

  • opis :

Controlled Noisy Web Labels to zbiór ~212 000 adresów URL do obrazów, w których każdy obraz jest starannie opatrzony adnotacjami przez 3-5 specjalistów od etykietowania w usłudze Google Cloud Data Labeling Service. Korzystając z tych adnotacji, ustanawia pierwszy punkt odniesienia dla kontrolowanego rzeczywistego szumu etykiet z sieci.

Zapewniamy konfiguracje Red Mini-ImageNet (rzeczywisty szum sieciowy) i Blue Mini-ImageNet: - kontrolowane_noisy_web_labels/mini_imagenet_red - kontrolowane_noisy_web_labels/mini_imagenet_blue

Każda konfiguracja zawiera dziesięć wariantów z dziesięcioma poziomami hałasu p od 0% do 80%. Zestaw sprawdzania poprawności ma czyste etykiety i jest współużytkowany przez wszystkie hałaśliwe zestawy szkoleniowe. Dlatego każda konfiguracja ma następujące podziały:

  • pociąg_00
  • pociąg_05
  • pociąg_10
  • pociąg_15
  • pociąg_20
  • pociąg_30
  • pociąg_40
  • pociąg_50
  • pociąg_60
  • pociąg_80
  • walidacja

Szczegóły dotyczące konstrukcji i analizy zbioru danych można znaleźć w artykule. Wszystkie obrazy są przeskalowane do rozdzielczości 84x84.

  1. Pobierz podziały i adnotacje tutaj
  2. Wyodrębnij dataset_no_images.zip do dataset_no_images/.
  3. Pobierz wszystkie obrazy w dataset_no_images/mini-imagenet-annotations.json do nowego folderu o nazwie dataset_no_images/noisy_images/. Nazwa pliku wyjściowego musi być zgodna z identyfikatorem obrazu podanym w pliku mini-imagenet-annotations.json. Na przykład, jeśli „image/id”: „5922767e5677aef4”, pobrany obraz powinien mieć postać dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Zarejestruj się na https://image-net.org/download-images i pobierz ILSVRC2012_img_train.tar i ILSVRC2012_img_val.tar.

Powstała struktura katalogów może być następnie przetwarzana przez TFDS:

  • dataset_no_images/
    • mini-imagenet/
    • nazwa_klasy.txt
    • rozdzielać/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • czyste_walidacja
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • hałaśliwe_obrazy/

    • 5922767e5677aef4.jpg
  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Struktura funkcji :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształt Typ D Opis
FunkcjeDict
ID Tekst strunowy
obraz Obraz (Brak, Brak, 3) uint8
to czyste Napinacz bool
etykieta Etykieta klasy int64
@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

kontrolowane_noisy_web_labels/mini_imagenet_red (domyślna konfiguracja)

  • Rozmiar zestawu danych : 1.19 GiB

  • Podziały :

Rozdzielać Przykłady
'train_00' 50 000
'train_05' 50 000
'train_10' 50 000
'train_15' 50 000
'train_20' 50 000
'train_30' 49 985
'train_40' 50 010
'train_50' 49962
'train_60' 50 000
'train_80' 50 008
'validation' 5000

Wyobrażanie sobie

kontrolowane_noisy_web_labels/mini_imagenet_blue

  • Rozmiar zestawu danych : 1.39 GiB

  • Podziały :

Rozdzielać Przykłady
'train_00' 60 000
'train_05' 60 000
'train_10' 60 000
'train_15' 60 000
'train_20' 60 000
'train_30' 60 000
'train_40' 60 000
'train_50' 60 000
'train_60' 60 000
'train_80' 60 000
'validation' 5000

Wyobrażanie sobie