O Dia da Comunidade de ML é dia 9 de novembro! Junte-nos para atualização de TensorFlow, JAX, e mais Saiba mais

youtube_vis

  • Descrição:

Youtube-vis é um conjunto de dados de segmentação de instância de vídeo. Ele contém 2.883 vídeos de alta resolução do YouTube, um conjunto de rótulos de categoria por pixel incluindo 40 objetos comuns, como pessoas, animais e veículos, 4.883 instâncias de vídeo exclusivas e 131 mil anotações manuais de alta qualidade.

O conjunto de dados YouTube-VIS é dividido em 2.238 vídeos de treinamento, 302 vídeos de validação e 343 vídeos de teste.

Nenhum arquivo foi removido ou alterado durante o pré-processamento.

  • Homepage: https://youtube-vos.org/dataset/vis/

  • O código-fonte: tfds.video.youtube_vis.YoutubeVis

  • versões:

    • 1.0.0 (padrão): Versão inicial.
  • Tamanho do download: Unknown size

  • Instruções baixar o manual: Este conjunto de dados requer que você baixe os dados de origem manualmente para download_config.manual_dir (o padrão é ~/tensorflow_datasets/downloads/manual/ ):
    Baixe todos os arquivos para a versão 2019 do conjunto de dados (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) do site do youtube-vis e mova-os para ~ / tensorflow_datasets / downloads / manual /.

Note que a página conjunto de dados de destino é localizado na https://youtube-vos.org/dataset/vis/, e ele irá redirecioná-lo para uma página em https://competitions.codalab.org onde você pode baixar a versão 2019 do conjunto de dados. Você precisará fazer uma conta no codalab para baixar os dados. Observe que, no momento em que este documento é escrito, você precisará ignorar o aviso "Conexão não segura" ao acessar o codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / full (configuração padrão)

  • A inscrição Config: A versão resolução completa do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos, incluído.

  • Tamanho do conjunto de dados: 33.31 GiB

  • desdobramentos:

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full

  • A inscrição Config: Todas as imagens são bilinearly redimensionada para 480 X 640 com todos os quadros incluídos.

  • Tamanho do conjunto de dados: 130.02 GiB

  • desdobramentos:

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels

  • A inscrição Config: Todas as imagens são bilinearly redimensionada para 480 X 640 com apenas quadros com rótulos incluídos.

  • Tamanho do conjunto de dados: 26.27 GiB

  • desdobramentos:

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels

  • A inscrição Config: Apenas as imagens com rótulos incluídos em sua resolução nativa.

  • Tamanho do conjunto de dados: 6.91 GiB

  • desdobramentos:

Dividir Exemplos
'test' 343
'train' 2.238
'validation' 302
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / full_train_split

  • A inscrição Config: A versão resolução completa do conjunto de dados, com todos os quadros, incluindo aqueles sem rótulos, incluído. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados: 26.09 GiB

  • desdobramentos:

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full_train_split

  • A inscrição Config: Todas as imagens são bilinearly redimensionada para 480 X 640 com todos os quadros incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados: 101.57 GiB

  • desdobramentos:

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels_train_split

  • A inscrição Config: Todas as imagens são bilinearly redimensionada para 480 X 640 com apenas quadros com rótulos incluídos. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados: 20.55 GiB

  • desdobramentos:

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels_train_split

  • A inscrição Config: Apenas as imagens com rótulos incluídos em sua resolução nativa. As divisões val e test são fabricadas a partir dos dados de treinamento.

  • Tamanho do conjunto de dados: 5.46 GiB

  • desdobramentos:

Dividir Exemplos
'test' 200
'train' 1.838
'validation' 200
  • Características:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})