Tao

Descripción :

El conjunto de datos TAO es un gran conjunto de datos de detección de objetos en vídeo que consta de 2907 vídeos de alta resolución y 833 categorías de objetos. Tenga en cuenta que este conjunto de datos requiere al menos 300 GB de espacio libre para almacenarse.

Documentación adicional : Explorar en artículos con código
Página de inicio : https://taodataset.org/
Código fuente : tfds.video.tao.Tao
Versiones :
- 1.1.0 (predeterminado) : división de prueba agregada.
Tamaño de descarga : Unknown size
Tamaño del conjunto de datos : Unknown size
Instrucciones de descarga manual : este conjunto de datos requiere que descargue los datos de origen manualmente en download_config.manual_dir (el valor predeterminado es ~/tensorflow_datasets/downloads/manual/ ):
Algunos archivos TAO (vídeos HVACS y AVA) deben descargarse manualmente porque se requiere iniciar sesión en MOT. Descargue esos datos siguiendo las instrucciones en https://motchallenge.net/tao_download.php

Descargue estos datos y mueva los archivos .zip resultantes a ~/tensorflow_datasets/downloads/manual/

Si los datos que requieren descarga manual no están presentes, se omitirán y solo se utilizarán los datos que no requieran descarga manual.

Almacenamiento en caché automático ( documentación ): Desconocido
Divisiones :

Dividir	Ejemplos

Claves supervisadas (ver documento as_supervised ): None
Figura ( tfds.show_examples ): no compatible.
Ejemplos ( tfds.as_dataframe ): Falta.
Cita :

@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (configuración predeterminada)

Descripción de la configuración : Todas las imágenes cambian de tamaño bilinealmente a 480 X 640
Estructura de características :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D
	FuncionesDict
metadatos	FuncionesDict
metadatos/conjunto de datos	Tensor		cadena
metadatos/altura	Tensor		int32
metadatos/neg_category_ids	Tensor	(Ninguno,)	int32
metadatos/not_exhaustive_category_ids	Tensor	(Ninguno,)	int32
metadatos/num_frames	Tensor		int32
metadatos/nombre_video	Tensor		cadena
metadatos/ancho	Tensor		int32
pistas	Secuencia
pistas/cajas b	Secuencia (BBoxFeature)	(Ninguno, 4)	flotador32
pistas/categoría	Etiqueta de clase		int64
pistas/cuadros	Secuencia (tensor)	(Ninguno,)	int32
pistas/is_crowd	Tensor		booleano
pistas/categoría_escala	Tensor		cadena
pistas/track_id	Tensor		int32
video	Vídeo (Imagen)	(Ninguno, 480, 640, 3)	uint8

tao/resolución_completa

Descripción de la configuración : la versión de resolución completa del conjunto de datos.
Estructura de características :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentación de funciones :

Característica	Clase	Forma	tipo D
	FuncionesDict
metadatos	FuncionesDict
metadatos/conjunto de datos	Tensor		cadena
metadatos/altura	Tensor		int32
metadatos/neg_category_ids	Tensor	(Ninguno,)	int32
metadatos/not_exhaustive_category_ids	Tensor	(Ninguno,)	int32
metadatos/num_frames	Tensor		int32
metadatos/nombre_video	Tensor		cadena
metadatos/ancho	Tensor		int32
pistas	Secuencia
pistas/cajas b	Secuencia (BBoxFeature)	(Ninguno, 4)	flotador32
pistas/categoría	Etiqueta de clase		int64
pistas/cuadros	Secuencia (tensor)	(Ninguno,)	int32
pistas/is_crowd	Tensor		booleano
pistas/categoría_escala	Tensor		cadena
pistas/track_id	Tensor		int32
video	Vídeo (Imagen)	(Ninguno, Ninguno, Ninguno, 3)	uint8

Tao Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.

tao/480_640 (configuración predeterminada)

tao/resolución_completa

Tao