영리한

CLEVR은 다양한 시각적 추론 능력을 테스트하는 진단 데이터 세트입니다. 여기에는 최소한의 편견이 포함되어 있으며 각 질문에 필요한 추론의 종류를 설명하는 자세한 주석이 있습니다.

나뉘다
'test' 15,000
'train' 70,000
'validation' 15,000
  • 기능 구조 :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'objects': Sequence({
        '3d_coords': Tensor(shape=(3,), dtype=float32),
        'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
        'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
        'pixel_coords': Tensor(shape=(3,), dtype=float32),
        'rotation': float32,
        'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'question_answer': Sequence({
        'answer': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
파일 이름 텍스트
영상 영상 (없음, 없음, 3) uint8
사물 순서
객체/3d_coords 텐서 (삼,) float32
사물/색상 클래스 레이블 int64
사물/재료 클래스 레이블 int64
객체/pixel_coords 텐서 (삼,) float32
개체/회전 텐서 float32
물체/모양 클래스 레이블 int64
개체/크기 클래스 레이블 int64
질문 답변 순서
질문_답변 텍스트
질문_답변/질문 텍스트

심상

  • 인용 :
@inproceedings{johnson2017clevr,
  title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
  author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  year={2017}
}