이미지넷2012

  • 설명 :

일반적으로 'ImageNet'으로 알려진 ILSVRC 2012는 WordNet 계층 구조에 따라 구성된 이미지 데이터 세트입니다. 여러 단어나 단어 구문으로 설명될 수 있는 WordNet의 각 의미 있는 개념을 "동의어 집합" 또는 "synset"이라고 합니다. WordNet에는 100,000개가 넘는 synset이 있으며 그 중 대부분은 명사(80,000개 이상)입니다. ImageNet에서는 각 synset을 설명하기 위해 평균 1000개의 이미지를 제공하는 것을 목표로 합니다. 각 컨셉의 이미지는 품질이 관리되고 사람이 주석을 달았습니다. 완성되면 ImageNet이 WordNet 계층 구조의 대부분의 개념에 대해 깔끔하게 정렬된 수천만 개의 이미지를 제공할 수 있기를 바랍니다.

테스트 분할에는 100,000개의 이미지가 포함되어 있지만 공개적으로 공개된 라벨이 없기 때문에 라벨이 없습니다. 우리는 2019년 10월 10일에 출시된 마이너 패치를 통해 2012년부터 테스트 분할을 지원합니다. 이 데이터를 수동으로 다운로드하려면 사용자가 다음 작업을 수행해야 합니다.

  1. 여기에서 2012년 테스트 분할을 다운로드할 수 있습니다.
  2. 2019년 10월 10일 패치를 다운로드하세요. 동일한 페이지에 제공된 패치에 대한 Google 드라이브 링크가 있습니다.
  3. 두 개의 타르볼을 결합하여 원본 아카이브의 이미지를 패치의 이미지로 수동으로 덮어씁니다. image-net.org의 지침에 따르면 이 절차는 몇 개의 이미지만 덮어씁니다.

그 결과 생성된 타르볼은 TFDS에 의해 처리될 수 있습니다.

ImageNet 테스트 분할에서 모델의 정확성을 평가하려면 분할의 모든 이미지에 대해 추론을 실행하고 해당 결과를 ImageNet 평가 서버에 업로드해야 하는 텍스트 파일로 내보내야 합니다. ImageNet 평가 서버의 관리자는 과적합을 방지하기 위해 단일 사용자가 매주 최대 2개의 제출을 ​​제출하는 것을 허용합니다.

테스트 분할의 정확성을 평가하려면 먼저 image-net.org에서 계정을 만들어야 합니다. 이 계정은 사이트 관리자의 승인을 받아야 합니다. 계정이 생성된 후 https://image-net.org/challenges/LSVRC/eval_server.php 에서 테스트 서버에 결과를 제출할 수 있습니다. 제출은 여러 작업에 해당하는 여러 ASCII 텍스트 파일로 구성됩니다. 관심 있는 작업은 "분류 제출(상위 5개 cls 오류)"입니다. 내보낸 텍스트 파일의 샘플은 다음과 같습니다.

771 778 794 387 650
363 691 764 923 427
737 369 430 531 124
755 930 755 59 168

내보내기 형식은 여기에서 사용할 수 있는 2013 개발 키트 내의 "readme.txt"에 자세히 설명되어 있습니다. https://image-net.org/data/ILSVRC/2013/ILSVRC2013_devkit.tgz "3.3 CLS-LOC 섹션을 참조하세요. 제출 형식'을 참조하세요. 간단히 말해서 텍스트 파일의 형식은 테스트 분할의 각 이미지에 해당하는 100,000줄입니다. 각 정수 라인은 각 테스트 이미지에 대한 순위순의 상위 5개 예측에 해당합니다. 정수는 해당 레이블 파일의 줄 번호에 따라 1부터 인덱스됩니다. labels.txt를 참조하세요.

  • 추가 문서 : 코드 가 포함된 논문 탐색

  • 홈페이지 : https://image-net.org/

  • 소스 코드 : tfds.datasets.imagenet2012.Builder

  • 버전 :

    • 2.0.0 : 유효성 검사 라벨을 수정합니다.
    • 2.0.1 : 인코딩 수정. 사용자 관점에서는 변화가 없습니다.
    • 3.0.0 : ~12개 이미지(CMYK -> RGB)의 색상화를 수정합니다. 일관성을 위해 형식을 수정합니다(단일 png 이미지를 Jpeg로 변환). 아카이브에서 직접 읽는 속도가 빨라집니다.

    • 4.0.0 : (미공개)

    • 5.0.0 : 새로운 분할 API( https://tensorflow.org/datasets/splits )

    • 5.1.0 (기본값): 테스트 분할이 추가되었습니다.

  • 다운로드 크기 : Unknown size

  • 데이터세트 크기 : 155.84 GiB

  • 수동 다운로드 지침 : 이 데이터세트에서는 소스 데이터를 download_config.manual_dir 에 수동으로 다운로드해야 합니다(기본값은 ~/tensorflow_datasets/downloads/manual/ ).
    manual_dir에는 ILSVRC2012_img_train.tar 및 ILSVRC2012_img_val.tar라는 두 개의 파일이 포함되어야 합니다. 데이터 세트를 다운로드할 수 있는 링크를 얻으려면 https://image-net.org/download-images 에 등록해야 합니다.

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'test' 100,000
'train' 1,281,167
'validation' 50,000
  • 기능 구조 :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'label': ClassLabel(shape=(), dtype=int64, num_classes=1000),
})
  • 기능 문서 :
특징 수업 모양 Dtype 설명
특징Dict
파일 이름 텍스트
영상 영상 (없음, 없음, 3) uint8
상표 클래스 라벨 정수64

심상

  • 인용 :
@article{ILSVRC15,
Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
Title = { {ImageNet Large Scale Visual Recognition Challenge} },
Year = {2015},
journal   = {International Journal of Computer Vision (IJCV)},
doi = {10.1007/s11263-015-0816-y},
volume={115},
number={3},
pages={211-252}
}