চতুর

CLEVR হল একটি ডায়াগনস্টিক ডেটাসেট যা ভিজ্যুয়াল রিজনিং ক্ষমতার একটি পরিসীমা পরীক্ষা করে। এটিতে ন্যূনতম পক্ষপাত রয়েছে এবং প্রতিটি প্রশ্নের জন্য যে ধরনের যুক্তি প্রয়োজন তা বর্ণনা করে বিশদ টীকা রয়েছে।

বিভক্ত উদাহরণ
'test' 15,000
'train' 70,000
'validation' 15,000
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'objects': Sequence({
        '3d_coords': Tensor(shape=(3,), dtype=float32),
        'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
        'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
        'pixel_coords': Tensor(shape=(3,), dtype=float32),
        'rotation': float32,
        'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'question_answer': Sequence({
        'answer': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
ফাইল_নাম পাঠ্য স্ট্রিং
ইমেজ ছবি (কোনটিই নয়, 3) uint8
বস্তু ক্রম
বস্তু/3d_coords টেনসর (৩,) float32
বস্তু/রঙ ক্লাসলেবেল int64
বস্তু/উপাদান ক্লাসলেবেল int64
বস্তু/পিক্সেল_কোর্ড টেনসর (৩,) float32
বস্তু/ঘূর্ণন টেনসর float32
বস্তু/আকৃতি ক্লাসলেবেল int64
বস্তু/আকার ক্লাসলেবেল int64
প্রশ্ন উত্তর ক্রম
প্রশ্ন_উত্তর/উত্তর পাঠ্য স্ট্রিং
প্রশ্ন_উত্তর/প্রশ্ন পাঠ্য স্ট্রিং

ভিজ্যুয়ালাইজেশন

  • উদ্ধৃতি :
@inproceedings{johnson2017clevr,
  title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
  author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  year={2017}
}