Google I/O — это обертка! Наверстать упущенное в сеансах TensorFlow Просмотреть сеансы

youtube_vis

  • Описание:

Youtube-vis - это набор данных сегментации экземпляров видео. Он содержит 2883 видеоролика YouTube с высоким разрешением, набор меток категорий для каждого пикселя, включающий 40 общих объектов, таких как люди, животные и транспортные средства, 4883 уникальных экземпляра видео и 131 тыс. Высококачественных ручных аннотаций.

Набор данных YouTube-VIS разделен на 2 238 обучающих видеороликов, 302 видеоролика для проверки и 343 видеоролика для тестирования.

Во время предварительной обработки файлы не были удалены или изменены.

  • Домашняя страница: https://youtube-vos.org/dataset/vis/

  • Исходный код: tfds.video.youtube_vis.YoutubeVis

  • Версии:

    • 1.0.0 ( по умолчанию): Первый выпуск.
  • Размер загрузки: Unknown size

  • Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в download_config.manual_dir ( по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
    Загрузите все файлы для версии набора данных 2019 года (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) с веб-сайта youtube-vis и переместите их в ~ / tensorflow_datasets / загрузки / руководство /.

Обратите внимание , что страница набора данных посадки находится в https://youtube-vos.org/dataset/vis/, и он будет перенаправить вас на страницу , на https://competitions.codalab.org , где вы можете скачать версию 2019 набора данных. Вам нужно будет создать учетную запись на codalab, чтобы загрузить данные. Обратите внимание, что на момент написания вам нужно будет обойти предупреждение «Соединение небезопасно» при доступе к codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / full (конфигурация по умолчанию)

  • Описание Config: Полная версия разрешение набора данных, со всеми кадрами, в том числе без этикеток, включены.

  • Dataset Размер: 33.31 GiB

  • расколы:

Расколоть Примеры
'test' 343
'train' 2 238
'validation' 302
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full

  • Описание Config: Все изображения билинейно изменены до 480 X 640 со всеми кадрами включены.

  • Dataset Размер: 130.02 GiB

  • расколы:

Расколоть Примеры
'test' 343
'train' 2 238
'validation' 302
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels

  • Описание Config: Все изображения билинейно изменены до 480 X 640 только кадры с этикетками включены.

  • Dataset Размер: 26.27 GiB

  • расколы:

Расколоть Примеры
'test' 343
'train' 2 238
'validation' 302
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels

  • Описание конфигурации: только изображения с метками , включенных в их родном разрешении.

  • Dataset размер: 6.91 GiB

  • расколы:

Расколоть Примеры
'test' 343
'train' 2 238
'validation' 302
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / full_train_split

  • Описание Config: Полная версия разрешение набора данных, со всеми кадрами, в том числе без этикеток, включены. Разделения val и test производятся из данных обучения.

  • Dataset Размер: 26.09 GiB

  • расколы:

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full_train_split

  • Описание Config: Все изображения билинейно изменены до 480 X 640 со всеми кадрами включены. Разделения val и test производятся из данных обучения.

  • Dataset Размер: 101.57 GiB

  • расколы:

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels_train_split

  • Описание Config: Все изображения билинейно изменены до 480 X 640 только кадры с этикетками включены. Разделения val и test производятся из данных обучения.

  • Dataset Размер: 20.55 GiB

  • расколы:

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels_train_split

  • Описание конфигурации: только изображения с метками , включенных в их родном разрешении. Разделения val и test производятся из данных обучения.

  • Dataset Размер: 5.46 GiB

  • расколы:

Расколоть Примеры
'test' 200
'train' 1838
'validation' 200
  • Особенности:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})