youtube_vis

  • Description:

Youtube-vis est un jeu de données de segmentation d'instances vidéo. Il contient 2 883 vidéos YouTube haute résolution, un ensemble d'étiquettes de catégorie par pixel comprenant 40 objets courants tels que des personnes, des animaux et des véhicules, 4 883 instances vidéo uniques et 131 000 annotations manuelles de haute qualité.

L'ensemble de données YouTube-VIS est divisé en 2 238 vidéos de formation, 302 vidéos de validation et 343 vidéos de test.

Aucun fichier n'a été supprimé ou modifié pendant le prétraitement.

  • Page d' accueil: https://youtube-vos.org/dataset/vis/

  • Code source: tfds.video.youtube_vis.YoutubeVis

  • versions:

    • 1.0.0 (par défaut): Version initiale.
  • Taille du téléchargement: Unknown size

  • Instructions de téléchargement Manuel: Cet ensemble de données , vous devez télécharger les données source manuellement dans download_config.manual_dir (par défaut ~/tensorflow_datasets/downloads/manual/ ):
    Veuillez télécharger tous les fichiers pour la version 2019 de l'ensemble de données (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) à partir du site Web youtube-vis et déplacez-les vers ~/tensorflow_datasets/ téléchargements/manuel/.

Notez que la page d'atterrissage de jeu de données est situé à https://youtube-vos.org/dataset/vis/, et il vous rediriger vers une page sur https://competitions.codalab.org où vous pouvez télécharger la version 2019 de l'ensemble de données. Vous devrez créer un compte sur codalab pour télécharger les données. Notez qu'au moment d'écrire ces lignes, vous devrez contourner un avertissement "Connexion non sécurisée" lors de l'accès à codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configuration par défaut)

  • Description Config: La version complète de la résolution de l'ensemble de données, avec tous les cadres, y compris ceux sans étiquette, inclus.

  • Taille Dataset: 33.31 GiB

  • scissions:

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_full

  • Description Config: Toutes les images sont redimensionnées bilinéaire à 480 X 640 avec tous les cadres inclus.

  • Taille Dataset: 130.02 GiB

  • scissions:

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_only_frames_with_labels

  • Description Config: Toutes les images sont redimensionnées bilinéaire à 480 X 640 avec uniquement des cadres avec des étiquettes inclus.

  • Taille Dataset: 26.27 GiB

  • scissions:

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/only_frames_with_labels

  • Description Config: Seules les images avec des étiquettes incluses dans leur résolution native.

  • Taille Dataset: 6.91 GiB

  • scissions:

Diviser Exemples
'test' 343
'train' 2 238
'validation' 302
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/full_train_split

  • Description Config: La version complète de la résolution de l'ensemble de données, avec tous les cadres, y compris ceux sans étiquette, inclus. Les fractionnements val et test sont fabriqués à partir des données d'apprentissage.

  • Taille Dataset: 26.09 GiB

  • scissions:

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_full_train_split

  • Description Config: Toutes les images sont redimensionnées bilinéaire à 480 X 640 avec tous les cadres inclus. Les fractionnements val et test sont fabriqués à partir des données d'apprentissage.

  • Taille Dataset: 101.57 GiB

  • scissions:

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_only_frames_with_labels_train_split

  • Description Config: Toutes les images sont redimensionnées bilinéaire à 480 X 640 avec uniquement des cadres avec des étiquettes inclus. Les fractionnements val et test sont fabriqués à partir des données d'apprentissage.

  • Taille Dataset: 20.55 GiB

  • scissions:

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/only_frames_with_labels_train_split

  • Description Config: Seules les images avec des étiquettes incluses dans leur résolution native. Les fractionnements val et test sont fabriqués à partir des données d'apprentissage.

  • Taille Dataset: 5.46 GiB

  • scissions:

Diviser Exemples
'test' 200
'train' 1 838
'validation' 200
  • Caractéristiques:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})