youtube_vis

  • Descriptif :

Youtube-vis est un ensemble de données de segmentation d'instance vidéo. Il contient 2 883 vidéos YouTube haute résolution, un ensemble d'étiquettes de catégorie par pixel comprenant 40 objets courants tels que des personnes, des animaux et des véhicules, 4 883 instances vidéo uniques et 131 000 annotations manuelles de haute qualité.

L'ensemble de données YouTube-VIS est divisé en 2 238 vidéos de formation, 302 vidéos de validation et 343 vidéos de test.

Aucun fichier n'a été supprimé ou modifié pendant le prétraitement.

  • Documentation complémentaire : Explorer sur Papers With Code

  • Page d' accueil : https://youtube-vos.org/dataset/vis/

  • Code source : tfds.video.youtube_vis.YoutubeVis

  • Versions :

    • 1.0.0 (par défaut) : version initiale.
  • Taille du téléchargement : Unknown size

  • Instructions de téléchargement manuel : cet ensemble de données nécessite que vous téléchargiez manuellement les données sources dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ) :
    Veuillez télécharger tous les fichiers pour la version 2019 de l'ensemble de données (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) depuis le site Web youtube-vis et les déplacer vers ~/tensorflow_datasets/ téléchargements/manuel/.

Notez que la page d'accueil de l'ensemble de données se trouve à https://youtube-vos.org/dataset/vis/, et elle vous redirigera ensuite vers une page sur https://competitions.codalab.org où vous pourrez télécharger la version 2019 de l'ensemble de données. Vous devrez créer un compte sur codalab pour télécharger les données. Notez qu'au moment d'écrire ces lignes, vous devrez contourner un avertissement "Connexion non sécurisée" lors de l'accès à codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configuration par défaut)

  • Description de la configuration : la version pleine résolution du jeu de données, avec toutes les images, y compris celles sans étiquettes, incluses.

  • Taille du jeu de données : 33.31 GiB

  • Fractionnements :

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, Aucun, Aucun, 1) uint8
vidéo Vidéo (Image) (Aucun, Aucun, Aucun, 3) uint8

youtube_vis/480_640_full

  • Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec tous les cadres inclus.

  • Taille du jeu de données : 130.02 GiB

  • Fractionnements :

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, 480, 640, 1) uint8
vidéo Vidéo (Image) (Aucun, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec uniquement des cadres avec étiquettes incluses.

  • Taille du jeu de données : 26.27 GiB

  • Fractionnements :

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, 480, 640, 1) uint8
vidéo Vidéo (Image) (Aucun, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Description de la configuration : seules les images avec des étiquettes incluses dans leur résolution native.

  • Taille du jeu de données : 6.91 GiB

  • Fractionnements :

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, Aucun, Aucun, 1) uint8
vidéo Vidéo (Image) (Aucun, Aucun, Aucun, 3) uint8

youtube_vis/full_train_split

  • Description de la configuration : la version pleine résolution du jeu de données, avec toutes les images, y compris celles sans étiquettes, incluses. Les divisions val et test sont fabriquées à partir des données d'apprentissage.

  • Taille du jeu de données : 26.09 GiB

  • Fractionnements :

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, Aucun, Aucun, 1) uint8
vidéo Vidéo (Image) (Aucun, Aucun, Aucun, 3) uint8

youtube_vis/480_640_full_train_split

  • Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec tous les cadres inclus. Les divisions val et test sont fabriquées à partir des données d'apprentissage.

  • Taille du jeu de données : 101.57 GiB

  • Fractionnements :

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, 480, 640, 1) uint8
vidéo Vidéo (Image) (Aucun, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Description de la configuration : Toutes les images sont redimensionnées de manière bilinéaire à 480 X 640 avec uniquement des cadres avec étiquettes incluses. Les divisions val et test sont fabriquées à partir des données d'apprentissage.

  • Taille du jeu de données : 20.55 GiB

  • Fractionnements :

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, 480, 640, 1) uint8
vidéo Vidéo (Image) (Aucun, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Description de la configuration : seules les images avec des étiquettes incluses dans leur résolution native. Les divisions val et test sont fabriquées à partir des données d'apprentissage.

  • Taille du jeu de données : 5.46 GiB

  • Fractionnements :

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Structure des fonctionnalités :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentation des fonctionnalités :
Caractéristique Classer Forme Dtype La description
FonctionnalitésDict
métadonnées FonctionnalitésDict
métadonnées/hauteur Tenseur int32
métadonnées/num_frames Tenseur int32
métadonnées/nom_vidéo Tenseur chaîne de caractères
métadonnées/largeur Tenseur int32
des pistes Séquence
pistes/zones Séquence (tenseur) (Aucun,) float32
pistes/bbox Séquence(BBoxFeature) (Aucun, 4) float32
pistes/catégorie Étiquette de classe int64
pistes/cadres Séquence (tenseur) (Aucun,) int32
pistes/is_crowd Tenseur bourdonner
pistes/segmentations Vidéo (Image) (Aucun, Aucun, Aucun, 1) uint8
vidéo Vidéo (Image) (Aucun, Aucun, Aucun, 3) uint8