TFDS теперь поддерживает формат Croissant 🥐 ! Прочтите документацию , чтобы узнать больше.

Эта страница переведена с помощью Cloud Translation API.

youtube_vis

Описание :

Youtube-vis — это набор данных для сегментации экземпляров видео. Он содержит 2 883 видеоролика YouTube с высоким разрешением, набор меток категории для каждого пикселя, включающий 40 общих объектов, таких как люди, животные и транспортные средства, 4 883 уникальных экземпляра видео и 131 000 высококачественных ручных аннотаций.

Набор данных YouTube-VIS разделен на 2238 обучающих видеороликов, 302 проверочных видеоролика и 343 тестовых видеоролика.

Никакие файлы не были удалены или изменены во время предварительной обработки.

Дополнительная документация : изучить документы с кодом
Домашняя страница : https://youtube-vos.org/dataset/vis/
Исходный код : tfds.video.youtube_vis.YoutubeVis
Версии :
- 1.0.0 (по умолчанию): Первоначальный выпуск.
Размер загрузки : Unknown size
Инструкции по ручной загрузке : этот набор данных требует, чтобы вы загружали исходные данные вручную в download_config.manual_dir (по умолчанию ~/tensorflow_datasets/downloads/manual/ ):
Пожалуйста, загрузите все файлы для версии набора данных 2019 года (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) с веб-сайта youtube-vis и переместите их в ~/tensorflow_datasets/ загрузки/руководство/.

Обратите внимание, что целевая страница набора данных находится по адресу https://youtube-vos.org/dataset/vis/, и затем она перенаправит вас на страницу https://competitions.codalab.org , где вы сможете скачать версию 2019 года. набора данных. Вам нужно будет создать учетную запись на codalab для загрузки данных. Обратите внимание, что на момент написания этой статьи вам нужно будет обойти предупреждение «Соединение небезопасно» при доступе к codalab.

Автоматическое кэширование ( документация ): Нет
Ключи под наблюдением (см . документ as_supervised ): None
Рисунок ( tfds.show_examples ): не поддерживается.
Цитата :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (конфигурация по умолчанию)

Описание конфигурации : версия набора данных с полным разрешением, включая все кадры, в том числе без меток.
Размер набора данных : 33.31 GiB
Сплиты :

Расколоть	Примеры
`'test'`	343
`'train'`	2238
`'validation'`	302

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, Нет, Нет, 1)	uint8
видео	Видео (изображение)	(Нет, Нет, Нет, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/480_640_full

Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 со всеми включенными кадрами.
Размер набора данных : 130.02 GiB
Сплиты :

Расколоть	Примеры
`'test'`	343
`'train'`	2238
`'validation'`	302

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, 480, 640, 1)	uint8
видео	Видео (изображение)	(Нет, 480, 640, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 с включением только кадров с метками.
Размер набора данных : 26.27 GiB
Сплиты :

Расколоть	Примеры
`'test'`	343
`'train'`	2238
`'validation'`	302

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, 480, 640, 1)	uint8
видео	Видео (изображение)	(Нет, 480, 640, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Описание конфигурации : только изображения с включенными метками в исходном разрешении.
Размер набора данных : 6.91 GiB
Сплиты :

Расколоть	Примеры
`'test'`	343
`'train'`	2238
`'validation'`	302

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, Нет, Нет, 1)	uint8
видео	Видео (изображение)	(Нет, Нет, Нет, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/full_train_split

Описание конфигурации : версия набора данных с полным разрешением, включая все кадры, в том числе без меток. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных : 26.09 GiB
Сплиты :

Расколоть	Примеры
`'test'`	200
`'train'`	1838
`'validation'`	200

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, Нет, Нет, 1)	uint8
видео	Видео (изображение)	(Нет, Нет, Нет, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 со всеми включенными кадрами. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных : 101.57 GiB
Сплиты :

Расколоть	Примеры
`'test'`	200
`'train'`	1838
`'validation'`	200

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, 480, 640, 1)	uint8
видео	Видео (изображение)	(Нет, 480, 640, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Описание конфигурации : размер всех изображений билинейно изменен до 480 X 640 с включением только кадров с метками. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных : 20.55 GiB
Сплиты :

Расколоть	Примеры
`'test'`	200
`'train'`	1838
`'validation'`	200

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, 480, 640, 1)	uint8
видео	Видео (изображение)	(Нет, 480, 640, 3)	uint8

Примеры ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Описание конфигурации : только изображения с включенными метками в исходном разрешении. Расщепления val и test создаются на основе обучающих данных.
Размер набора данных : 5.46 GiB
Сплиты :

Расколоть	Примеры
`'test'`	200
`'train'`	1838
`'validation'`	200

Структура функции :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Документация по функциям :

Особенность	Учебный класс	Форма	Dтип
	ОсобенностиDict
метаданные	ОсобенностиDict
метаданные/высота	Тензор		int32
метаданные/число_кадров	Тензор		int32
метаданные/имя_видео	Тензор		нить
метаданные/ширина	Тензор		int32
треки	Последовательность
треки/районы	Последовательность (тензор)	(Никто,)	поплавок32
треки/боксы	Последовательность (BBoxFeature)	(Нет, 4)	поплавок32
треки/категория	Метка класса		int64
треки/кадры	Последовательность (тензор)	(Никто,)	int32
треки/is_crowd	Тензор		логический
треки/сегменты	Видео (изображение)	(Нет, Нет, Нет, 1)	uint8
видео	Видео (изображение)	(Нет, Нет, Нет, 3)	uint8

Примеры ( tfds.as_dataframe ):