CLEVR הוא מערך נתונים אבחוני שבודק מגוון של יכולות חשיבה חזותית. הוא מכיל הטיות מינימליות ויש לו הערות מפורטות המתארות את סוג ההנמקה הנדרשת לכל שאלה.

לְפַצֵל דוגמאות
'test' 15,000
'train' 70,000
'validation' 15,000
  • מבנה תכונה :
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'objects': Sequence({
        '3d_coords': Tensor(shape=(3,), dtype=float32),
        'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
        'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
        'pixel_coords': Tensor(shape=(3,), dtype=float32),
        'rotation': float32,
        'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
    'question_answer': Sequence({
        'answer': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
שם קובץ טֶקסט חוּט
תמונה תמונה (אין, אין, 3) uint8
חפצים סדר פעולות
objects/3d_coords מוֹתֵחַ (3,) לצוף32
חפצים/צבע ClassLabel int64
חפצים/חומר ClassLabel int64
objects/pixel_coords מוֹתֵחַ (3,) לצוף32
חפצים/סיבוב מוֹתֵחַ לצוף32
חפצים/צורה ClassLabel int64
חפצים/גודל ClassLabel int64
שאלה תשובה סדר פעולות
שאלה_תשובה/תשובה טֶקסט חוּט
שאלה_תשובה/שאלה טֶקסט חוּט


  • ציטוט :
  title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
  author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},