etiquetas_web_ruidosas_controladas

  • Descripción :

Controlled Noisy Web Labels es una colección de aproximadamente 212 000 URL de imágenes en las que cada imagen es anotada cuidadosamente por 3 a 5 profesionales de etiquetado del Servicio de etiquetado de datos de Google Cloud. Usando estas anotaciones, establece el primer punto de referencia de ruido de etiqueta controlado en el mundo real desde la web.

Proporcionamos las configuraciones Red Mini-ImageNet (ruido web del mundo real) y Blue Mini-ImageNet: - etiquetas_web_noisy_controladas/mini_imagen_red - etiquetas_web_ruido_controladas/mini_imagen_azul

Cada configuración contiene diez variantes con diez niveles de ruido p de 0% a 80%. El conjunto de validación tiene etiquetas limpias y se comparte entre todos los conjuntos de entrenamiento ruidosos. Por lo tanto, cada configuración tiene las siguientes divisiones:

  • tren_00
  • tren_05
  • tren_10
  • tren_15
  • tren_20
  • tren_30
  • tren_40
  • tren_50
  • tren_60
  • tren_80
  • validación

Los detalles para la construcción y el análisis del conjunto de datos se pueden encontrar en el documento. Todas las imágenes se redimensionan a una resolución de 84x84.

  1. Descargue las divisiones y las anotaciones aquí
  2. Extraiga dataset_no_images.zip a dataset_no_images/.
  3. Descargue todas las imágenes en dataset_no_images/mini-imagenet-annotations.json en una nueva carpeta llamada dataset_no_images/noisy_images/. El nombre del archivo de salida debe coincidir con la identificación de la imagen proporcionada en mini-imagenet-annotations.json. Por ejemplo, si "image/id": "5922767e5677aef4", la imagen descargada debe ser dataset_no_images/noisy_images/5922767e5677aef4.jpg. 4. Regístrese en https://image-net.org/download-images y descargue ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar.

La estructura de directorio resultante puede ser procesada por TFDS:

  • dataset_no_images/
    • mini-imagenet/
    • nombre_clase.txt
    • separar/
      • ruido_azul_nl_0.0
      • ruido_azul_nl_0.1
      • ...
      • ruido_rojo_nl_0.0
      • ruido_rojo_nl_0.1
      • ...
      • validación_limpia
    • mini-imagenet-anotaciones.json
  • ILSVRC2012_img_tren.tar
  • ILSVRC2012_img_val.tar
  • imágenes_ruidosas/

    • 5922767e5677aef4.jpg
  • Almacenamiento automático en caché ( documentación ): No

  • Estructura de características :

FeaturesDict({
    'id': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'is_clean': tf.bool,
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=100),
})
  • Documentación de características :
Rasgo Clase Forma Tipo D Descripción
CaracterísticasDict
identificación Texto tf.cadena
imagen Imagen (Ninguno, Ninguno, 3) tf.uint8
esta limpio Tensor tf.bool
etiqueta Etiqueta de clase tf.int64
  • Claves supervisadas (Ver as_supervised ): ('image', 'label')

  • Cita :

@inproceedings{jiang2020beyond,
  title={Beyond synthetic noise: Deep learning on controlled noisy labels},
  author={Jiang, Lu and Huang, Di and Liu, Mason and Yang, Weilong},
  booktitle={International Conference on Machine Learning},
  pages={4804--4815},
  year={2020},
  organization={PMLR}
}

control_noisy_web_labels/mini_imagenet_red (configuración predeterminada)

  • Tamaño del conjunto de datos : 1.19 GiB

  • Divisiones :

Separar Ejemplos
'train_00' 50,000
'train_05' 50,000
'train_10' 50,000
'train_15' 50,000
'train_20' 50,000
'train_30' 49,985
'train_40' 50,010
'train_50' 49,962
'train_60' 50,000
'train_80' 50,008
'validation' 5,000

Visualización

etiquetas_web_ruidosas_controladas/mini_imagen_azul

  • Tamaño del conjunto de datos : 1.39 GiB

  • Divisiones :

Separar Ejemplos
'train_00' 60.000
'train_05' 60.000
'train_10' 60.000
'train_15' 60.000
'train_20' 60.000
'train_30' 60.000
'train_40' 60.000
'train_50' 60.000
'train_60' 60.000
'train_80' 60.000
'validation' 5,000

Visualización