controlado_noisy_web_labels

  • Descrição :

Controlled Noisy Web Labels é uma coleção de aproximadamente 212.000 URLs para imagens em que cada imagem é cuidadosamente anotada por 3 a 5 profissionais de rotulagem pelo Google Cloud Data Labeling Service. Usando essas anotações, ele estabelece a primeira referência de ruído de rótulo do mundo real controlado da web.

Fornecemos as configurações Red Mini-ImageNet (ruído da web do mundo real) e Blue Mini-ImageNet: - controlado_noisy_web_labels/mini_imagenet_red - controlado_noisy_web_labels/mini_imagenet_blue

Cada configuração contém dez variantes com dez níveis de ruído p de 0% a 80%. O conjunto de validação tem rótulos limpos e é compartilhado entre todos os conjuntos de treinamento ruidosos. Portanto, cada configuração tem as seguintes divisões:

  • train_00
  • train_05
  • trem_10
  • trem_15
  • train_20
  • train_30
  • train_40
  • train_50
  • train_60
  • train_80
  • validação

Os detalhes para a construção e análise do conjunto de dados podem ser encontrados no artigo. Todas as imagens são redimensionadas para resolução 84x84.

  1. Baixe as divisões e as anotações aqui
  2. Extraia dataset_no_images.zip para dataset_no_images/.
  3. Baixe todas as imagens em dataset_no_images/mini-imagenet-annotations.json em uma nova pasta chamada dataset_no_images/noisy_images/. O nome do arquivo de saída deve corresponder ao ID da imagem fornecido em mini-imagenet-annotations.json. Por exemplo, se "image/id": "5922767e5677aef4", a imagem baixada deve ser dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4.Registre-se em https://image-net.org/download-images e baixe ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.

A estrutura de diretório resultante pode então ser processada pelo TFDS:

  • dataset_no_images/
    • mini-imagenet/
    • class_name.txt
    • dividir/
      • blue_noise_nl_0.0
      • blue_noise_nl_0.1
      • ...
      • red_noise_nl_0.0
      • red_noise_nl_0.1
      • ...
      • clean_validation
    • mini-imagenet-annotations.json
  • ILSVRC2012_img_train.tar
  • ILSVRC2012_img_val.tar
  • imagens_ruidosas/

    • 5922767e5677aef4.jpg
  • Armazenado em cache automaticamente ( documentação ): Não

  • Estrutura de recursos :

FeaturesDict({
    'id': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'is_clean': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=100),
})
  • Documentação do recurso :
Característica Classe Forma Tipo D Descrição
RecursosDict
Eu iria Texto corda
imagem Imagem (Nenhuma, Nenhuma, 3) uint8
está limpo tensor bool
etiqueta ClassLabel int64
  • Chaves supervisionadas (Consulte as_supervised doc ): ('image', 'label')

  • Citação :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

controlado_noisy_web_labels/mini_imagenet_red (configuração padrão)

  • Tamanho do conjunto de dados : 1.19 GiB

  • Divisões :

Dividir Exemplos
'train_00' 50.000
'train_05' 50.000
'train_10' 50.000
'train_15' 50.000
'train_20' 50.000
'train_30' 49.985
'train_40' 50.010
'train_50' 49.962
'train_60' 50.000
'train_80' 50.008
'validation' 5.000

Visualização

controlado_noisy_web_labels/mini_imagenet_blue

  • Tamanho do conjunto de dados : 1.39 GiB

  • Divisões :

Dividir Exemplos
'train_00' 60.000
'train_05' 60.000
'train_10' 60.000
'train_15' 60.000
'train_20' 60.000
'train_30' 60.000
'train_40' 60.000
'train_50' 60.000
'train_60' 60.000
'train_80' 60.000
'validation' 5.000

Visualização