clevr

CLEVR là một bộ dữ liệu chẩn đoán kiểm tra một loạt khả năng suy luận trực quan. Nó bao gồm những thành kiến ​​tối thiểu và có chú thích chi tiết mô tả loại lập luận mà mỗi câu hỏi yêu cầu.

Tách ra ví dụ
'test' 15.000
'train' 70.000
'validation' 15.000
 • Cấu trúc tính năng :
FeaturesDict({
  'file_name': Text(shape=(), dtype=string),
  'image': Image(shape=(None, None, 3), dtype=uint8),
  'objects': Sequence({
    '3d_coords': Tensor(shape=(3,), dtype=float32),
    'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
    'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'pixel_coords': Tensor(shape=(3,), dtype=float32),
    'rotation': float32,
    'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
  }),
  'question_answer': Sequence({
    'answer': Text(shape=(), dtype=string),
    'question': Text(shape=(), dtype=string),
  }),
})
 • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
tên_tệp Chữ sợi dây
hình ảnh Hình ảnh (Không, Không có, 3) uint8
các đối tượng Sự phối hợp
đối tượng/3d_coords tenxơ (3,) phao32
đồ vật/màu sắc LớpNhãn int64
đồ vật/chất liệu LớpNhãn int64
đối tượng/pixel_coords tenxơ (3,) phao32
đối tượng/vòng quay tenxơ phao32
đối tượng/hình dạng LớpNhãn int64
đối tượng/kích thước LớpNhãn int64
trả lời câu hỏi Sự phối hợp
câu hỏi_trả lời/câu trả lời Chữ sợi dây
question_answer/câu hỏi Chữ sợi dây

Hình dung

 • trích dẫn :
@inproceedings{johnson2017clevr,
 title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
 author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
 booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
 year={2017}
}