pintar

CLEVR adalah kumpulan data diagnostik yang menguji berbagai kemampuan penalaran visual. Ini mengandung bias minimal dan memiliki anotasi terperinci yang menggambarkan jenis penalaran yang dibutuhkan setiap pertanyaan.

Membelah Contoh
'test' 15.000
'train' 70.000
'validation' 15.000
  • Struktur fitur :
FeaturesDict({
    'file_name': Text(shape=(), dtype=string),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'objects': Sequence({
        '3d_coords': Tensor(shape=(3,), dtype=float32),
        'color': ClassLabel(shape=(), dtype=int64, num_classes=8),
        'material': ClassLabel(shape=(), dtype=int64, num_classes=2),
        'pixel_coords': Tensor(shape=(3,), dtype=float32),
        'rotation': float32,
        'shape': ClassLabel(shape=(), dtype=int64, num_classes=3),
        'size': ClassLabel(shape=(), dtype=int64, num_classes=2),
    }),
    'question_answer': Sequence({
        'answer': Text(shape=(), dtype=string),
        'question': Text(shape=(), dtype=string),
    }),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
nama file Teks rangkaian
gambar Gambar (Tidak ada, Tidak ada, 3) uint8
objek Urutan
objek/koord_3d Tensor (3,) float32
benda/warna LabelKelas int64
benda/materi LabelKelas int64
objek/pixel_coords Tensor (3,) float32
benda/rotasi Tensor float32
benda/bentuk LabelKelas int64
benda/ukuran LabelKelas int64
pertanyaan_jawaban Urutan
pertanyaan_jawaban/jawaban Teks rangkaian
pertanyaan_jawaban/pertanyaan Teks rangkaian

Visualisasi

  • Kutipan :
@inproceedings{johnson2017clevr,
  title={ {CLEVR}: A diagnostic dataset for compositional language and elementary visual reasoning},
  author={Johnson, Justin and Hariharan, Bharath and van der Maaten, Laurens and Fei-Fei, Li and Lawrence Zitnick, C and Girshick, Ross},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  year={2017}
}