TFDS supporte désormais le format Croissant 🥐 ! Lisez la documentation pour en savoir plus.

Cette page a été traduite par l'API Cloud Translation.

youtube_vis

Descriptif :

Youtube-vis est un ensemble de données de segmentation d'instance vidéo. Il contient 2 883 vidéos YouTube haute résolution, un ensemble d'étiquettes de catégorie par pixel comprenant 40 objets courants tels que des personnes, des animaux et des véhicules, 4 883 instances vidéo uniques et 131 000 annotations manuelles de haute qualité.

L'ensemble de données YouTube-VIS est divisé en 2 238 vidéos de formation, 302 vidéos de validation et 343 vidéos de test.

Aucun fichier n'a été supprimé ou modifié pendant le prétraitement.

Documentation complémentaire : Explorer sur Papers With Code
Page d' accueil : https://youtube-vos.org/dataset/vis/
Code source : tfds.video.youtube_vis.YoutubeVis
Versions :
- 1.0.0 (par défaut) : version initiale.
Taille du téléchargement : Unknown size
Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
Veuillez télécharger tous les fichiers pour la version 2019 de l'ensemble de données (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) depuis le site Web youtube-vis et les déplacer vers ~/tensorflow_datasets/ téléchargements/manuel/.

Notez que la page d'accueil de l'ensemble de données se trouve à https://youtube-vos.org/dataset/vis/, et elle vous redirigera ensuite vers une page sur https://competitions.codalab.org où vous pourrez télécharger la version 2019 de l'ensemble de données. Vous devrez créer un compte sur codalab pour télécharger les données. Notez qu'au moment d'écrire ces lignes, vous devrez contourner un avertissement "Connexion non sécurisée" lors de l'accès à codalab.

Mise en cache automatique ( documentation ): Non
Clés supervisées (Voir as_supervised doc ): None
Figure ( tfds.show_examples ) : non pris en charge.
Citation :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configuration par défaut)

Description de la configuration : la version pleine résolution du jeu de données, avec toutes les images, y compris celles sans étiquettes, incluses.
Taille du jeu de données : 33.31 GiB
Fractionnements :

Diviser	Exemples
`'test'`	343
`'train'`	2 238
`'validation'`	302

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, Aucun, Aucun, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, Aucun, Aucun, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/480_640_full

Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec tous les cadres inclus.
Taille du jeu de données : 130.02 GiB
Fractionnements :

Diviser	Exemples
`'test'`	343
`'train'`	2 238
`'validation'`	302

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, 480, 640, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, 480, 640, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec uniquement des cadres avec étiquettes incluses.
Taille du jeu de données : 26.27 GiB
Fractionnements :

Diviser	Exemples
`'test'`	343
`'train'`	2 238
`'validation'`	302

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, 480, 640, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, 480, 640, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Description de la configuration : seules les images avec des étiquettes incluses dans leur résolution native.
Taille du jeu de données : 6.91 GiB
Fractionnements :

Diviser	Exemples
`'test'`	343
`'train'`	2 238
`'validation'`	302

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, Aucun, Aucun, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, Aucun, Aucun, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/full_train_split

Description de la configuration : la version pleine résolution du jeu de données, avec toutes les images, y compris celles sans étiquettes, incluses. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données : 26.09 GiB
Fractionnements :

Diviser	Exemples
`'test'`	200
`'train'`	1 838
`'validation'`	200

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, Aucun, Aucun, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, Aucun, Aucun, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec tous les cadres inclus. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données : 101.57 GiB
Fractionnements :

Diviser	Exemples
`'test'`	200
`'train'`	1 838
`'validation'`	200

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, 480, 640, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, 480, 640, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec uniquement des cadres avec étiquettes incluses. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données : 20.55 GiB
Fractionnements :

Diviser	Exemples
`'test'`	200
`'train'`	1 838
`'validation'`	200

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, 480, 640, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, 480, 640, 3)	uint8

Exemples ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Description de la configuration : seules les images avec des étiquettes incluses dans leur résolution native. Les divisions val et test sont fabriquées à partir des données d'apprentissage.
Taille du jeu de données : 5.46 GiB
Fractionnements :

Diviser	Exemples
`'test'`	200
`'train'`	1 838
`'validation'`	200

Structure des fonctionnalités :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentation des fonctionnalités :

Caractéristique	Classer	Forme	Dtype
	FonctionnalitésDict
métadonnées	FonctionnalitésDict
métadonnées/hauteur	Tenseur		int32
métadonnées/num_frames	Tenseur		int32
métadonnées/nom_vidéo	Tenseur		chaîne de caractères
métadonnées/largeur	Tenseur		int32
des pistes	Séquence
pistes/zones	Séquence (tenseur)	(Aucun,)	float32
pistes/bbox	Séquence(BBoxFeature)	(Aucun, 4)	float32
pistes/catégorie	Étiquette de classe		int64
pistes/cadres	Séquence (tenseur)	(Aucun,)	int32
pistes/is_crowd	Tenseur		bourdonner
pistes/segmentations	Vidéo (Image)	(Aucun, Aucun, Aucun, 1)	uint8
vidéo	Vidéo (Image)	(Aucun, Aucun, Aucun, 3)	uint8

Exemples ( tfds.as_dataframe ):