kitti

Kitti chứa một bộ nhiệm vụ tầm nhìn được xây dựng bằng nền tảng lái xe tự trị. Điểm chuẩn đầy đủ chứa nhiều tác vụ như âm thanh nổi, luồng quang học, đo thị lực bằng hình ảnh, v.v. Tập dữ liệu này chứa tập dữ liệu phát hiện đối tượng, bao gồm hình ảnh bằng một mắt và hộp giới hạn. Bộ dữ liệu chứa 7481 hình ảnh đào tạo được chú thích bằng các hộp giới hạn 3D. Có thể tìm thấy mô tả đầy đủ về các chú thích trong phần đọc của bộ phát triển đối tượng readme trên trang chủ Kitti.

Tách ra ví dụ
'test' 711
'train' 6,347
'validation' 423
  • Cấu trúc tính năng :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'dimensions': Tensor(shape=(3,), dtype=float32),
        'location': Tensor(shape=(3,), dtype=float32),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
hình ảnh Hình ảnh (Không, Không có, 3) uint8
hình ảnh/file_name Chữ sợi dây
các đối tượng Sự phối hợp
đối tượng/alpha tenxơ phao32 Góc quan sát của đối tượng, phạm vi [-pi..pi]
đối tượng/bbox Tính năng BBox (4,) phao32 Hộp giới hạn 2D của đối tượng trong ảnh
đối tượng/kích thước tenxơ (3,) phao32 Kích thước đối tượng 3D: chiều cao, chiều rộng, chiều dài (tính bằng mét)
đồ vật/địa điểm tenxơ (3,) phao32 Vị trí đối tượng 3D x,y,z trong tọa độ camera (tính bằng mét)
đối tượng/bị tắc LớpNhãn int64 Số nguyên (0,1,2,3) biểu thị trạng thái che khuất: 0 = hiển thị đầy đủ, 1 = che khuất một phần2 = che khuất phần lớn, 3 = không xác định
đối tượng/vòng quay_y tenxơ phao32 Xoay quanh trục Y theo tọa độ máy ảnh [-pi..pi]
đối tượng/cắt ngắn tenxơ phao32 Di chuyển từ 0 (không cắt ngắn) đến 1 (cắt ngắn), trong đó cắt ngắn đề cập đến đối tượng rời khỏi ranh giới hình ảnh
đối tượng/loại LớpNhãn int64 Loại đối tượng, ví dụ: 'Xe' hoặc 'Van'

Hình dung

  • trích dẫn :
@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}