Aprenda o que há de mais recente em aprendizado de máquina, IA generativa e muito mais no WiML Symposium 2023 Registre-se

Esta página foi traduzida pela API Cloud Translation.

youtube_vis

Descrição :

Youtube-vis é um conjunto de dados de segmentação de instância de vídeo. Ele contém 2.883 vídeos do YouTube de alta resolução, um conjunto de rótulos de categoria por pixel, incluindo 40 objetos comuns, como pessoas, animais e veículos, 4.883 instâncias de vídeo exclusivas e 131 mil anotações manuais de alta qualidade.

O conjunto de dados do YouTube-VIS é dividido em 2.238 vídeos de treinamento, 302 vídeos de validação e 343 vídeos de teste.

Nenhum arquivo foi removido ou alterado durante o pré-processamento.

Documentação Adicional : Explore em Papers With Code
Página inicial : https://youtube-vos.org/dataset/vis/
Código -fonte: tfds.video.youtube_vis.YoutubeVis
Versões :
- 1.0.0 (padrão): versão inicial.
Tamanho do download : Unknown size
Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
Baixe todos os arquivos para a versão 2019 do conjunto de dados (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) do site youtube-vis e mova-os para ~/tensorflow_datasets/ downloads/manuais/.

Observe que a página de destino do conjunto de dados está localizada em https://youtube-vos.org/dataset/vis/ e o redirecionará para uma página em https://competitions.codalab.org onde você pode baixar a versão 2019 do conjunto de dados. Você precisará fazer uma conta no codalab para baixar os dados. Observe que, no momento em que escrevo isso, você precisará ignorar um aviso "Conexão não segura" ao acessar o codalab.

Armazenado em cache automaticamente ( documentação ): Não
Chaves supervisionadas (Consulte as_supervised doc ): None
Figura ( tfds.show_examples ): Não compatível.
Citação :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configuração padrão)

Descrição da configuração : a versão de resolução total do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos incluídos.
Tamanho do conjunto de dados : 33.31 GiB
Divisões :

Dividir	Exemplos
`'test'`	343
`'train'`	2.238
`'validation'`	302

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/480_640_full

Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com todos os quadros incluídos.
Tamanho do conjunto de dados : 130.02 GiB
Divisões :

Dividir	Exemplos
`'test'`	343
`'train'`	2.238
`'validation'`	302

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhuma, 480, 640, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, 480, 640, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com apenas quadros com rótulos incluídos.
Tamanho do conjunto de dados : 26.27 GiB
Divisões :

Dividir	Exemplos
`'test'`	343
`'train'`	2.238
`'validation'`	302

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhuma, 480, 640, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, 480, 640, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Descrição da configuração : Somente imagens com rótulos incluídos em sua resolução nativa.
Tamanho do conjunto de dados : 6.91 GiB
Divisões :

Dividir	Exemplos
`'test'`	343
`'train'`	2.238
`'validation'`	302

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/full_train_split

Descrição da configuração : a versão de resolução total do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados : 26.09 GiB
Divisões :

Dividir	Exemplos
`'test'`	200
`'train'`	1.838
`'validation'`	200

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com todos os quadros incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados : 101.57 GiB
Divisões :

Dividir	Exemplos
`'test'`	200
`'train'`	1.838
`'validation'`	200

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhuma, 480, 640, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, 480, 640, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com apenas quadros com rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados : 20.55 GiB
Divisões :

Dividir	Exemplos
`'test'`	200
`'train'`	1.838
`'validation'`	200

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhuma, 480, 640, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, 480, 640, 3)	uint8

Exemplos ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Descrição da configuração : Somente imagens com rótulos incluídos em sua resolução nativa. As divisões val e test são fabricadas a partir dos dados de treinamento.
Tamanho do conjunto de dados : 5.46 GiB
Divisões :

Dividir	Exemplos
`'test'`	200
`'train'`	1.838
`'validation'`	200

Estrutura de recursos :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentação do recurso:

Característica	Classe	Forma	Tipo D
	RecursosDict
metadados	RecursosDict
metadados/altura	tensor		int32
metadados/num_frames	tensor		int32
metadados/video_name	tensor		corda
metadados/largura	tensor		int32
faixas	Seqüência
pistas/áreas	Sequência(Tensor)	(Nenhum,)	float32
faixas/bboxes	Sequência (BBoxFeature)	(Nenhuma, 4)	float32
faixas/categoria	ClassLabel		int64
faixas/quadros	Sequência(Tensor)	(Nenhum,)	int32
faixas/is_crowd	tensor		bool
trilhas/segmentações	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 1)	uint8
vídeo	Vídeo(Imagem)	(Nenhum, Nenhum, Nenhum, 3)	uint8

Exemplos ( tfds.as_dataframe ):