تائو

  • توضیحات :

مجموعه داده TAO یک مجموعه داده بزرگ تشخیص اشیاء ویدیویی است که از 2907 ویدیو با وضوح بالا و 833 دسته شی تشکیل شده است. توجه داشته باشید که این مجموعه داده برای ذخیره به حداقل 300 گیگابایت فضای خالی نیاز دارد.

  • اسناد اضافی : کاوش در کاغذها با کد

  • صفحه اصلی : https://taodataset.org/

  • کد منبع : tfds.video.tao.Tao

  • نسخه ها :

    • 1.0.0 (پیش فرض): انتشار اولیه.
  • حجم دانلود : 113.96 GiB

  • دستورالعمل‌های دانلود دستی : این مجموعه داده از شما می‌خواهد که داده‌های منبع را به صورت دستی در download_config.manual_dir (پیش‌فرض ~/tensorflow_datasets/downloads/manual/ ):
    برخی از فایل های TAO (فیلم های HVACS و AVA) باید به صورت دستی دانلود شوند زیرا ورود به MOT لازم است. لطفاً آن داده‌ها را طبق دستورالعمل‌های موجود در https://motchallenge.net/tao_download.php دانلود کنید

این داده ها را دانلود کنید و فایل های .zip حاصل را به ~/tensorflow_datasets/downloads/manual/ منتقل کنید

اگر داده‌هایی که نیاز به دانلود دستی دارند وجود نداشته باشد، از آن صرفنظر می‌شود و فقط از داده‌هایی استفاده می‌شود که نیازی به دانلود دستی ندارند.

  • ذخیره خودکار ( اسناد ): خیر

  • تقسیم ها :

شکاف مثال ها
'train' 500
'validation' 988
@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (پیکربندی پیش‌فرض)

  • توضیحات پیکربندی : همه تصاویر به صورت دوخطی به 480 در 640 تغییر اندازه داده اند

  • حجم مجموعه داده : 482.30 GiB

  • ساختار ویژگی :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
فراداده FeaturesDict
فراداده/مجموعه داده تانسور رشته
ابرداده/ارتفاع تانسور int32
فراداده/neg_category_ids تانسور (هیچ یک،) int32
فراداده/not_Exhaustive_category_ids تانسور (هیچ یک،) int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/رده_مقیاس تانسور رشته
tracks/track_id تانسور int32
ویدئو ویدئو (تصویر) (هیچ، 480، 640، 3) uint8

tao/full_resolution

  • توضیحات پیکربندی : نسخه با وضوح کامل مجموعه داده.

  • حجم مجموعه داده : 171.24 GiB

  • ساختار ویژگی :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
ابرداده FeaturesDict
فراداده/مجموعه داده تانسور رشته
ابرداده/ارتفاع تانسور int32
فراداده/neg_category_ids تانسور (هیچ یک،) int32
فراداده/not_Exhaustive_category_ids تانسور (هیچ یک،) int32
متادیتا/تعداد_فریم ها تانسور int32
فراداده/نام_ویدئو تانسور رشته
فراداده/عرض تانسور int32
آهنگ های توالی
آهنگ/bboxes دنباله (BoxFeature) (هیچ، 4) float32
آهنگ / دسته ClassLabel int64
آهنگ/قاب دنباله (تنسور) (هیچ یک،) int32
tracks/is_crowd تانسور بوول
آهنگ/رده_مقیاس تانسور رشته
tracks/track_id تانسور int32
ویدئو ویدئو (تصویر) (هیچ، هیچ، هیچ، 3) uint8