kontrolowane_noisy_web_labels

opis :

Controlled Noisy Web Labels to zbiór ~212 000 adresów URL do obrazów, w których każdy obraz jest starannie opatrzony adnotacjami przez 3-5 specjalistów od etykietowania w usłudze Google Cloud Data Labeling Service. Korzystając z tych adnotacji, ustanawia pierwszy punkt odniesienia dla kontrolowanego rzeczywistego szumu etykiet z sieci.

Zapewniamy konfiguracje Red Mini-ImageNet (rzeczywisty szum sieciowy) i Blue Mini-ImageNet: - kontrolowane_noisy_web_labels/mini_imagenet_red - kontrolowane_noisy_web_labels/mini_imagenet_blue

Każda konfiguracja zawiera dziesięć wariantów z dziesięcioma poziomami hałasu p od 0% do 80%. Zestaw sprawdzania poprawności ma czyste etykiety i jest współużytkowany przez wszystkie hałaśliwe zestawy szkoleniowe. Dlatego każda konfiguracja ma następujące podziały:

pociąg_00
pociąg_05
pociąg_10
pociąg_15
pociąg_20
pociąg_30
pociąg_40
pociąg_50
pociąg_60
pociąg_80
walidacja

Szczegóły dotyczące konstrukcji i analizy zbioru danych można znaleźć w artykule. Wszystkie obrazy są przeskalowane do rozdzielczości 84x84.

Strona główna : https://google.github.io/controled-noisy-web-labels/index.html
Kod źródłowy : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : 1.83 MiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
W celu ręcznego pobrania tych danych użytkownik musi wykonać następujące czynności:

Pobierz podziały i adnotacje tutaj
Wyodrębnij dataset_no_images.zip do dataset_no_images/.
Pobierz wszystkie obrazy w dataset_no_images/mini-imagenet-annotations.json do nowego folderu o nazwie dataset_no_images/noisy_images/. Nazwa pliku wyjściowego musi być zgodna z identyfikatorem obrazu podanym w pliku mini-imagenet-annotations.json. Na przykład, jeśli „image/id”: „5922767e5677aef4”, pobrany obraz powinien mieć postać dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Zarejestruj się na https://image-net.org/download-images i pobierz ILSVRC2012_img_train.tar i ILSVRC2012_img_val.tar.

Powstała struktura katalogów może być następnie przetwarzana przez TFDS:

dataset_no_images/
- mini-imagenet/
- nazwa_klasy.txt
- rozdzielać/
  - blue_noise_nl_0.0
  - blue_noise_nl_0.1
  - ...
  - red_noise_nl_0.0
  - red_noise_nl_0.1
  - ...
  - czyste_walidacja
- mini-imagenet-annotations.json
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
hałaśliwe_obrazy/
- 5922767e5677aef4.jpg
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
ID	Tekst		strunowy
obraz	Obraz	(Brak, Brak, 3)	uint8
to czyste	Napinacz		bool
etykieta	Etykieta klasy		int64

Klucze nadzorowane (zobacz dokument as_supervised ): ('image', 'label')
Cytat :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

kontrolowane_noisy_web_labels/mini_imagenet_red (domyślna konfiguracja)

Rozmiar zestawu danych : 1.19 GiB
Podziały :

Rozdzielać	Przykłady
`'train_00'`	50 000
`'train_05'`	50 000
`'train_10'`	50 000
`'train_15'`	50 000
`'train_20'`	50 000
`'train_30'`	49 985
`'train_40'`	50 010
`'train_50'`	49962
`'train_60'`	50 000
`'train_80'`	50 008
`'validation'`	5000

Rysunek ( tfds.show_examples ):

Wyobrażanie sobie

Przykłady ( tfds.as_dataframe ):

kontrolowane_noisy_web_labels/mini_imagenet_blue

Rozmiar zestawu danych : 1.39 GiB
Podziały :

Rozdzielać	Przykłady
`'train_00'`	60 000
`'train_05'`	60 000
`'train_10'`	60 000
`'train_15'`	60 000
`'train_20'`	60 000
`'train_30'`	60 000
`'train_40'`	60 000
`'train_50'`	60 000
`'train_60'`	60 000
`'train_80'`	60 000
`'validation'`	5000

Rysunek ( tfds.show_examples ):

Wyobrażanie sobie

Przykłady ( tfds.as_dataframe ):

kontrolowane_noisy_web_labels Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

kontrolowane_noisy_web_labels/mini_imagenet_red (domyślna konfiguracja)

kontrolowane_noisy_web_labels/mini_imagenet_blue

kontrolowane_noisy_web_labels