youtube_vis

  • Descrição :

Youtube-vis é um conjunto de dados de segmentação de instância de vídeo. Ele contém 2.883 vídeos do YouTube de alta resolução, um conjunto de rótulos de categoria por pixel, incluindo 40 objetos comuns, como pessoas, animais e veículos, 4.883 instâncias de vídeo exclusivas e 131 mil anotações manuais de alta qualidade.

O conjunto de dados do YouTube-VIS é dividido em 2.238 vídeos de treinamento, 302 vídeos de validação e 343 vídeos de teste.

Nenhum arquivo foi removido ou alterado durante o pré-processamento.

  • Documentação Adicional : Explore em Papers With Code

  • Página inicial : https://youtube-vos.org/dataset/vis/

  • Código -fonte: tfds.video.youtube_vis.YoutubeVis

  • Versões :

    • 1.0.0 (padrão): versão inicial.
  • Tamanho do download : Unknown size

  • Instruções de download manual : este conjunto de dados exige que você baixe os dados de origem manualmente em download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Baixe todos os arquivos para a versão 2019 do conjunto de dados (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) do site youtube-vis e mova-os para ~/tensorflow_datasets/ downloads/manuais/.

Observe que a página de destino do conjunto de dados está localizada em https://youtube-vos.org/dataset/vis/ e o redirecionará para uma página em https://competitions.codalab.org onde você pode baixar a versão 2019 do conjunto de dados. Você precisará fazer uma conta no codalab para baixar os dados. Observe que, no momento em que escrevo isso, você precisará ignorar um aviso "Conexão não segura" ao acessar o codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configuração padrão)

  • Descrição da configuração : a versão de resolução total do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos incluídos.

  • Tamanho do conjunto de dados : 33.31 GiB

  • Divisões :

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 3) uint8

youtube_vis/480_640_full

  • Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com todos os quadros incluídos.

  • Tamanho do conjunto de dados : 130.02 GiB

  • Divisões :

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhuma, 480, 640, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com apenas quadros com rótulos incluídos.

  • Tamanho do conjunto de dados : 26.27 GiB

  • Divisões :

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhuma, 480, 640, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Descrição da configuração : Somente imagens com rótulos incluídos em sua resolução nativa.

  • Tamanho do conjunto de dados : 6.91 GiB

  • Divisões :

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 3) uint8

youtube_vis/full_train_split

  • Descrição da configuração : a versão de resolução total do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados : 26.09 GiB

  • Divisões :

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 3) uint8

youtube_vis/480_640_full_train_split

  • Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com todos os quadros incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados : 101.57 GiB

  • Divisões :

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhuma, 480, 640, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Descrição da configuração : Todas as imagens são redimensionadas bilinearmente para 480 X 640 com apenas quadros com rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados : 20.55 GiB

  • Divisões :

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhuma, 480, 640, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Descrição da configuração : Somente imagens com rótulos incluídos em sua resolução nativa. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados : 5.46 GiB

  • Divisões :

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Estrutura de recursos :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentação do recurso:
Característica Classe Forma Tipo D Descrição
RecursosDict
metadados RecursosDict
metadados/altura tensor int32
metadados/num_frames tensor int32
metadados/video_name tensor corda
metadados/largura tensor int32
faixas Seqüência
pistas/áreas Sequência(Tensor) (Nenhum,) float32
faixas/bboxes Sequência (BBoxFeature) (Nenhuma, 4) float32
faixas/categoria ClassLabel int64
faixas/quadros Sequência(Tensor) (Nenhum,) int32
faixas/is_crowd tensor bool
trilhas/segmentações Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 1) uint8
vídeo Vídeo(Imagem) (Nenhum, Nenhum, Nenhum, 3) uint8