O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

imagenet2012

ILSVRC 2012, comumente conhecido como 'ImageNet', é um conjunto de dados de imagens organizado de acordo com a hierarquia do WordNet. Cada conceito significativo no WordNet, possivelmente descrito por várias palavras ou frases de palavras, é chamado de "conjunto de sinônimos" ou "synset". Existem mais de 100.000 synsets no WordNet, a maioria deles substantivos (80.000+). No ImageNet, pretendemos fornecer em média 1000 imagens para ilustrar cada synset. As imagens de cada conceito são controladas por qualidade e anotadas por humanos. Em sua conclusão, esperamos que o ImageNet ofereça dezenas de milhões de imagens ordenadas de forma limpa para a maioria dos conceitos na hierarquia do WordNet.

A divisão de teste contém 100 mil imagens, mas nenhum rótulo porque nenhum rótulo foi lançado publicamente. Oferecemos suporte para a divisão de teste de 2012 com o patch secundário lançado em 10 de outubro de 2019. Para fazer o download manual desses dados, o usuário deve realizar as seguintes operações:

  1. Baixar a divisão de teste 2012 disponível aqui .
  2. Baixe o patch de 10 de outubro de 2019. Há um link do Google Drive para o patch fornecido na mesma página.
  3. Combine os dois tar-balls, substituindo manualmente quaisquer imagens no arquivo original com imagens do patch. De acordo com as instruções em image-net.org, este procedimento substitui apenas algumas imagens.

O tarball resultante pode então ser processado por TFDS.

Para avaliar a precisão de um modelo na divisão de teste ImageNet, deve-se executar inferência em todas as imagens na divisão, exportar esses resultados para um arquivo de texto que deve ser carregado no servidor de avaliação ImageNet. Os mantenedores do servidor de avaliação ImageNet permitem que um único usuário envie até 2 envios por semana para evitar overfitting.

Para avaliar a precisão da divisão do teste, é necessário primeiro criar uma conta em image-net.org. Esta conta deve ser aprovada pelo administrador do site. Após a criação da conta, pode-se apresentar os resultados ao servidor de teste em https://image-net.org/challenges/LSVRC/eval_server.php A apresentação consiste em vários arquivos de texto ASCII correspondentes a várias tarefas. A tarefa de interesse é "Envio de classificação (5 principais erros cls)". Uma amostra de um arquivo de texto exportado se parece com o seguinte:

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

O formato de exportação é descrito na íntegra em "readme.txt" dentro do kit 2013 desenvolvimento disponível aqui: http://imagenet.stanford.edu/image/ilsvrc2013/ILSVRC2013_devkit.tgz Por favor, consulte a seção intitulada "formato de submissão 3.3 CLS-LOC " Resumidamente, o formato do arquivo de texto é 100.000 linhas correspondentes a cada imagem na divisão de teste. Cada linha de inteiros corresponde às 5 principais previsões ordenadas por classificação para cada imagem de teste. Os inteiros são indexados em 1 correspondendo ao número da linha no arquivo de etiquetas correspondente. Veja imagenet2012_labels.txt.

  • Homepage: http://image-net.org/

  • O código-fonte: tfds.image_classification.Imagenet2012

  • versões:

    • 2.0.0 etiquetas de validação CORRECÇÃO:.
    • 2.0.1 : Codificação de correção. Sem alterações do ponto de vista do usuário.
    • 3.0.0 : coloração Fix em ~ 12 imagens (CMYK -> RGB). Corrija o formato para manter a consistência (converta a imagem png única em JPEG). Leitura de geração mais rápida diretamente do arquivo.

    • 4.0.0 : (não publicado)

    • 5.0.0 : Nova divisão API ( https://tensorflow.org/datasets/splits )

    • 5.1.0 (padrão): split teste Adicionado.

  • Tamanho do download: Unknown size

  • Tamanho do conjunto de dados: 155.84 GiB

  • Instruções baixar o manual: Este conjunto de dados requer que você baixe os dados de origem manualmente para download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    manual_dir deve conter dois arquivos: ILSVRC2012_img_train.tar e ILSVRC2012_img_val.tar. Você precisa se registrar no http://www.image-net.org/download-images , a fim de obter o link para baixar o conjunto de dados.

  • Cache-Auto ( documentação ): Não

  • desdobramentos:

Dividir Exemplos
'test' 100.000
'train' 1.281.167
'validation' 50.000
  • Características:
FeaturesDict({
    'file_name': Text(shape=(), dtype=tf.string),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=1000),
})

Visualização

  • citação:
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}