- Descriptif :
L'ensemble de données TAO est un grand ensemble de données de détection d'objets vidéo composé de 2 907 vidéos haute résolution et de 833 catégories d'objets. Notez que cet ensemble de données nécessite au moins 300 Go d'espace libre pour être stocké.
Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://taodataset.org/
Code source :
tfds.video.tao.Tao
Versions :
-
1.0.0
(par défaut) : version initiale.
-
Taille du téléchargement :
113.96 GiB
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans
download_config.manual_dir
(par défaut~/tensorflow_datasets/downloads/manual/
) :
Certains fichiers TAO (vidéos HVACS et AVA) doivent être téléchargés manuellement car une connexion au MOT est requise. Veuillez télécharger et ces données en suivant les instructions sur https://motchallenge.net/tao_download.php
Téléchargez ces données et déplacez les fichiers .zip résultants vers ~/tensorflow_datasets/downloads/manual/
Si les données nécessitant un téléchargement manuel ne sont pas présentes, elles seront ignorées et seules les données ne nécessitant pas de téléchargement manuel seront utilisées.
Mise en cache automatique ( documentation ): Non
Fractionnements :
Diviser | Exemples |
---|---|
'train' | 500 |
'validation' | 988 |
Clés supervisées (Voir
as_supervised
doc ):None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :
@article{Dave_2020,
title={TAO: A Large-Scale Benchmark for Tracking Any Object},
ISBN={9783030585587},
ISSN={1611-3349},
url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
DOI={10.1007/978-3-030-58558-7_26},
journal={Lecture Notes in Computer Science},
publisher={Springer International Publishing},
author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
year={2020},
pages={436-454}
}
tao/480_640 (configuration par défaut)
Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640
Taille du jeu de données :
482.30 GiB
Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/ensemble de données | Tenseur | chaîne de caractères | ||
métadonnées/hauteur | Tenseur | int32 | ||
metadata/neg_category_ids | Tenseur | (Aucun,) | int32 | |
metadata/not_exhaustive_category_ids | Tenseur | (Aucun,) | int32 | |
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/échelle_catégorie | Tenseur | chaîne de caractères | ||
pistes/track_id | Tenseur | int32 | ||
vidéo | Vidéo (Image) | (Aucun, 480, 640, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):
tao/full_resolution
Description de la configuration : la version pleine résolution du jeu de données.
Taille du jeu de données :
171.24 GiB
Structure des fonctionnalités :
FeaturesDict({
'metadata': FeaturesDict({
'dataset': string,
'height': int32,
'neg_category_ids': Tensor(shape=(None,), dtype=int32),
'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
'num_frames': int32,
'video_name': string,
'width': int32,
}),
'tracks': Sequence({
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
'frames': Sequence(int32),
'is_crowd': bool,
'scale_category': string,
'track_id': int32,
}),
'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
- Documentation des fonctionnalités :
Caractéristique | Classer | Forme | Dtype | La description |
---|---|---|---|---|
FonctionnalitésDict | ||||
métadonnées | FonctionnalitésDict | |||
métadonnées/ensemble de données | Tenseur | chaîne de caractères | ||
métadonnées/hauteur | Tenseur | int32 | ||
metadata/neg_category_ids | Tenseur | (Aucun,) | int32 | |
metadata/not_exhaustive_category_ids | Tenseur | (Aucun,) | int32 | |
métadonnées/num_frames | Tenseur | int32 | ||
métadonnées/nom_vidéo | Tenseur | chaîne de caractères | ||
métadonnées/largeur | Tenseur | int32 | ||
des pistes | Séquence | |||
pistes/bbox | Séquence(BBoxFeature) | (Aucun, 4) | float32 | |
pistes/catégorie | Étiquette de classe | int64 | ||
pistes/cadres | Séquence (tenseur) | (Aucun,) | int32 | |
pistes/is_crowd | Tenseur | bourdonner | ||
pistes/échelle_catégorie | Tenseur | chaîne de caractères | ||
pistes/track_id | Tenseur | int32 | ||
vidéo | Vidéo (Image) | (Aucun, Aucun, Aucun, 3) | uint8 |
- Exemples ( tfds.as_dataframe ):