tao

  • Mô tả :

Tập dữ liệu TAO là tập dữ liệu phát hiện đối tượng video lớn bao gồm 2.907 video có độ phân giải cao và 833 danh mục đối tượng. Lưu ý rằng bộ dữ liệu này yêu cầu ít nhất 300 GB dung lượng trống để lưu trữ.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://taodataset.org/

  • Mã nguồn : tfds.video.tao.Tao

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : 113.96 GiB

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Một số tệp TAO (video HVACS và AVA) phải được tải xuống thủ công vì yêu cầu phải đăng nhập vào Bộ GTVT. Vui lòng tải và những dữ liệu đó theo hướng dẫn tại https://motchallenge.net/tao_download.php

Tải xuống dữ liệu này và di chuyển các tệp .zip kết quả sang ~/tensorflow_datasets/downloads/manual/

Nếu không có dữ liệu yêu cầu tải xuống thủ công, nó sẽ bị bỏ qua và chỉ dữ liệu không yêu cầu tải xuống thủ công mới được sử dụng.

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 500
'validation' 988
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (cấu hình mặc định)

  • Mô tả cấu hình : Tất cả hình ảnh được thay đổi kích thước song tuyến thành 480 X 640

  • Kích thước tập dữ liệu : 482.30 GiB

  • Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/bộ dữ liệu tenxơ sợi dây
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/neg_category_ids tenxơ (Không có,) int32
siêu dữ liệu/not_exhaustive_category_ids tenxơ (Không có,) int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/scale_category tenxơ sợi dây
bài hát/track_id tenxơ int32
video Video(Hình ảnh) (Không, 480, 640, 3) uint8

tao/full_resolution

  • Mô tả cấu hình : Phiên bản có độ phân giải đầy đủ của tập dữ liệu.

  • Kích thước tập dữ liệu : 171.24 GiB

  • Cấu trúc tính năng :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
metadata Tính năngDict
siêu dữ liệu/bộ dữ liệu tenxơ sợi dây
siêu dữ liệu/chiều cao tenxơ int32
siêu dữ liệu/neg_category_ids tenxơ (Không có,) int32
siêu dữ liệu/not_exhaustive_category_ids tenxơ (Không có,) int32
siêu dữ liệu/num_frames tenxơ int32
siêu dữ liệu/video_name tenxơ sợi dây
siêu dữ liệu/chiều rộng tenxơ int32
bài hát Sự phối hợp
bài hát/bbox Trình tự (Tính năng BBox) (Không, 4) phao32
bài hát/danh mục LớpNhãn int64
bài hát/khung Trình tự (Tensor) (Không có,) int32
bài hát/is_crowd tenxơ bool
bài hát/scale_category tenxơ sợi dây
bài hát/track_id tenxơ int32
video Video(Hình ảnh) (Không, Không, Không, 3) uint8