controlado_noisy_web_labels

Descrição :

Controlled Noisy Web Labels é uma coleção de aproximadamente 212.000 URLs para imagens em que cada imagem é cuidadosamente anotada por 3 a 5 profissionais de rotulagem pelo Google Cloud Data Labeling Service. Usando essas anotações, ele estabelece a primeira referência de ruído de rótulo do mundo real controlado da web.

Fornecemos as configurações Red Mini-ImageNet (ruído da web do mundo real) e Blue Mini-ImageNet: - controlado_noisy_web_labels/mini_imagenet_red - controlado_noisy_web_labels/mini_imagenet_blue

Cada configuração contém dez variantes com dez níveis de ruído p de 0% a 80%. O conjunto de validação tem rótulos limpos e é compartilhado entre todos os conjuntos de treinamento ruidosos. Portanto, cada configuração tem as seguintes divisões:

train_00
train_05
trem_10
trem_15
train_20
train_30
train_40
train_50
train_60
train_80
validação

Os detalhes para a construção e análise do conjunto de dados podem ser encontrados no artigo. Todas as imagens são redimensionadas para resolução 84x84.

Página inicial : https://google.github.io/controlado-noisy-web-labels/index.html
Código-fonte : tfds.image_classification.controlled_noisy_web_labels.ControlledNoisyWebLabels
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : 1.83 MiB
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Para baixar manualmente esses dados, o usuário deve executar as seguintes operações:

Baixe as divisões e as anotações aqui
Extraia dataset_no_images.zip para dataset_no_images/.
Baixe todas as imagens em dataset_no_images/mini-imagenet-annotations.json em uma nova pasta chamada dataset_no_images/noisy_images/. O nome do arquivo de saída deve corresponder ao ID da imagem fornecido em mini-imagenet-annotations.json. Por exemplo, se "image/id": "5922767e5677aef4", a imagem baixada deve ser dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Registre-se em https://image-net.org/download-images e baixe ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.

A estrutura de diretório resultante pode então ser processada pelo TFDS:

dataset_no_images/
- mini-imagenet/
- class_name.txt
- dividir/
  - blue_noise_nl_0.0
  - blue_noise_nl_0.1
  - ...
  - red_noise_nl_0.0
  - red_noise_nl_0.1
  - ...
  - clean_validation
- mini-imagenet-annotations.json
ILSVRC2012_img_train.tar
ILSVRC2012_img_val.tar
imagens_ruidosas/
- 5922767e5677aef4.jpg
Armazenado em cache automaticamente ( documentação ): Não
Estrutura de recursos :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})

Documentação do recurso :

Característica	Classe	Forma	Tipo D
	RecursosDict
Eu iria	Texto		corda
imagem	Imagem	(Nenhuma, Nenhuma, 3)	uint8
está limpo	tensor		bool
etiqueta	ClassLabel		int64

Chaves supervisionadas (Consulte as_supervised doc ): ('image', 'label')
Citação :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlado_noisy_web_labels/mini_imagenet_red (configuração padrão)

Tamanho do conjunto de dados : 1.19 GiB
Divisões :

Dividir	Exemplos
`'train_00'`	50.000
`'train_05'`	50.000
`'train_10'`	50.000
`'train_15'`	50.000
`'train_20'`	50.000
`'train_30'`	49.985
`'train_40'`	50.010
`'train_50'`	49.962
`'train_60'`	50.000
`'train_80'`	50.008
`'validation'`	5.000

Figura ( tfds.show_examples ):

Visualização

Exemplos ( tfds.as_dataframe ):

controlado_noisy_web_labels/mini_imagenet_blue

Tamanho do conjunto de dados : 1.39 GiB
Divisões :

Dividir	Exemplos
`'train_00'`	60.000
`'train_05'`	60.000
`'train_10'`	60.000
`'train_15'`	60.000
`'train_20'`	60.000
`'train_30'`	60.000
`'train_40'`	60.000
`'train_50'`	60.000
`'train_60'`	60.000
`'train_80'`	60.000
`'validation'`	5.000

Figura ( tfds.show_examples ):

Visualização

Exemplos ( tfds.as_dataframe ):

controlado_noisy_web_labels Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

controlado_noisy_web_labels/mini_imagenet_red (configuração padrão)

controlado_noisy_web_labels/mini_imagenet_blue

controlado_noisy_web_labels