¡El Día de la Comunidad de ML es el 9 de noviembre! Únase a nosotros para recibir actualizaciones de TensorFlow, JAX, y más Más información

youtube_vis

  • Descripción:

Youtube-vis es un conjunto de datos de segmentación de instancias de video. Contiene 2883 videos de YouTube de alta resolución, un conjunto de etiquetas de categoría por píxel que incluye 40 objetos comunes como personas, animales y vehículos, 4883 instancias de video únicas y 131 mil anotaciones manuales de alta calidad.

El conjunto de datos de YouTube-VIS se divide en 2238 videos de capacitación, 302 videos de validación y 343 videos de prueba.

No se eliminaron ni alteraron archivos durante el preprocesamiento.

  • Inicio: https://youtube-vos.org/dataset/vis/

  • El código fuente: tfds.video.youtube_vis.YoutubeVis

  • versiones:

    • 1.0.0 (por defecto): Versión inicial.
  • Tamaño del paquete: Unknown size

  • Las instrucciones de descarga manual: Este conjunto de datos se requiere para descargar los datos de origen manualmente en download_config.manual_dir (por defecto ~/tensorflow_datasets/downloads/manual/ ):
    Descargue todos los archivos para la versión 2019 del conjunto de datos (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) del sitio web youtube-vis y muévalos a ~ / tensorflow_datasets / descargas / manual /.

Tenga en cuenta que la página de aterrizaje conjunto de datos se encuentra en https://youtube-vos.org/dataset/vis/, y entonces le redirigirá a una página en https://competitions.codalab.org donde se puede descargar la versión 2019 del conjunto de datos. Deberá crear una cuenta en codalab para descargar los datos. Tenga en cuenta que al momento de escribir esto, deberá omitir una advertencia de "Conexión no segura" cuando acceda a codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / full (configuración predeterminada)

  • Descripción config: La versión completa resolución del conjunto de datos, con todos los marcos, incluyendo los que no tienen etiquetas, incluido.

  • Tamaño Conjunto de datos: 33.31 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 343
'train' 2,238
'validation' 302
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full

  • Descripción config: Todas las imágenes cambian de tamaño bilinealmente a 480 X 640 con todos los marcos incluidos.

  • Tamaño de conjunto de datos: 130.02 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 343
'train' 2,238
'validation' 302
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels

  • Descripción config: Todas las imágenes cambian de tamaño bilinealmente a 480 X 640 con sólo tramas con etiquetas incluidas.

  • Tamaño de conjunto de datos: 26.27 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 343
'train' 2,238
'validation' 302
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels

  • Descripción config: Sólo las imágenes con etiquetas incluidas en su resolución nativa.

  • Tamaño Conjunto de datos: 6.91 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 343
'train' 2,238
'validation' 302
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / full_train_split

  • Descripción config: La versión completa resolución del conjunto de datos, con todos los marcos, incluyendo los que no tienen etiquetas, incluido. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño de conjunto de datos: 26.09 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 200
'train' 1.838
'validation' 200
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full_train_split

  • Descripción config: Todas las imágenes cambian de tamaño bilinealmente a 480 X 640 con todos los marcos incluidos. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño de conjunto de datos: 101.57 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 200
'train' 1.838
'validation' 200
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels_train_split

  • Descripción config: Todas las imágenes cambian de tamaño bilinealmente a 480 X 640 con sólo tramas con etiquetas incluidas. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño de conjunto de datos: 20.55 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 200
'train' 1.838
'validation' 200
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels_train_split

  • Descripción config: Sólo las imágenes con etiquetas incluidas en su resolución nativa. Las divisiones de val y prueba se fabrican a partir de los datos de entrenamiento.

  • Tamaño de conjunto de datos: 5.46 GiB

  • Fraccionamientos:

Separar Ejemplos de
'test' 200
'train' 1.838
'validation' 200
  • características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})