- Описание:
Youtube-vis - это набор данных сегментации экземпляров видео. Он содержит 2883 видеоролика YouTube с высоким разрешением, набор меток категорий для каждого пикселя, включающий 40 общих объектов, таких как люди, животные и транспортные средства, 4883 уникальных экземпляра видео и 131 тыс. Высококачественных ручных аннотаций.
Набор данных YouTube-VIS разделен на 2 238 обучающих видеороликов, 302 видеоролика для проверки и 343 видеоролика для тестирования.
Во время предварительной обработки файлы не были удалены или изменены.
Домашняя страница: https://youtube-vos.org/dataset/vis/
Исходный код:
tfds.video.youtube_vis.YoutubeVis
Версии:
-
1.0.0
( по умолчанию): Первый выпуск.
-
Размер загрузки:
Unknown size
Руководство по эксплуатации скачать: Этот набор данных требует от вас , чтобы загрузить исходные данные вручную в
download_config.manual_dir
( по умолчанию~/tensorflow_datasets/downloads/manual/
):
Загрузите все файлы для версии набора данных 2019 года (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) с веб-сайта youtube-vis и переместите их в ~ / tensorflow_datasets / загрузки / руководство /.
Обратите внимание , что страница набора данных посадки находится в https://youtube-vos.org/dataset/vis/, и он будет перенаправить вас на страницу , на https://competitions.codalab.org , где вы можете скачать версию 2019 набора данных. Вам нужно будет создать учетную запись на codalab, чтобы загрузить данные. Обратите внимание, что на момент написания вам нужно будет обойти предупреждение «Соединение небезопасно» при доступе к codalab.
Авто-кэшируются ( документация ): Нет
Контролируемые ключи (см
as_supervised
документ ):None
Рис ( tfds.show_examples ): Не поддерживается.
Образец цитирования:
@article{DBLP:journals/corr/abs-1905-04804,
author = {Linjie Yang and
Yuchen Fan and
Ning Xu},
title = {Video Instance Segmentation},
journal = {CoRR},
volume = {abs/1905.04804},
year = {2019},
url = {http://arxiv.org/abs/1905.04804},
archivePrefix = {arXiv},
eprint = {1905.04804},
timestamp = {Tue, 28 May 2019 12:48:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}
youtube_vis / full (конфигурация по умолчанию)
Описание Config: Полная версия разрешение набора данных, со всеми кадрами, в том числе без этикеток, включены.
Dataset Размер:
33.31 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / 480_640_full
Описание Config: Все изображения билинейно изменены до 480 X 640 со всеми кадрами включены.
Dataset Размер:
130.02 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / 480_640_only_frames_with_labels
Описание Config: Все изображения билинейно изменены до 480 X 640 только кадры с этикетками включены.
Dataset Размер:
26.27 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / only_frames_with_labels
Описание конфигурации: только изображения с метками , включенных в их родном разрешении.
Dataset размер:
6.91 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 343 |
'train' | 2 238 |
'validation' | 302 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / full_train_split
Описание Config: Полная версия разрешение набора данных, со всеми кадрами, в том числе без этикеток, включены. Разделения val и test производятся из данных обучения.
Dataset Размер:
26.09 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / 480_640_full_train_split
Описание Config: Все изображения билинейно изменены до 480 X 640 со всеми кадрами включены. Разделения val и test производятся из данных обучения.
Dataset Размер:
101.57 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / 480_640_only_frames_with_labels_train_split
Описание Config: Все изображения билинейно изменены до 480 X 640 только кадры с этикетками включены. Разделения val и test производятся из данных обучения.
Dataset Размер:
20.55 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):
youtube_vis / only_frames_with_labels_train_split
Описание конфигурации: только изображения с метками , включенных в их родном разрешении. Разделения val и test производятся из данных обучения.
Dataset Размер:
5.46 GiB
расколы:
Расколоть | Примеры |
---|---|
'test' | 200 |
'train' | 1838 |
'validation' | 200 |
- Особенности:
FeaturesDict({
'metadata': FeaturesDict({
'height': tf.int32,
'num_frames': tf.int32,
'video_name': tf.string,
'width': tf.int32,
}),
'tracks': Sequence({
'areas': Sequence(tf.float32),
'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
'frames': Sequence(tf.int32),
'is_crowd': tf.bool,
'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
}),
'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})
- Примеры ( tfds.as_dataframe ):