youtube_vis

  • Descrizione :

Youtube-vis è un set di dati di segmentazione di istanze video. Contiene 2.883 video YouTube ad alta risoluzione, un set di etichette di categoria per pixel che include 40 oggetti comuni come persone, animali e veicoli, 4.883 istanze video uniche e 131.000 annotazioni manuali di alta qualità.

Il set di dati YouTube-VIS è suddiviso in 2.238 video di formazione, 302 video di convalida e 343 video di test.

Nessun file è stato rimosso o alterato durante la pre-elaborazione.

  • Documentazione aggiuntiva : Esplora documenti con codice

  • Pagina iniziale : https://youtube-vos.org/dataset/vis/

  • Codice sorgente : tfds.video.youtube_vis.YoutubeVis

  • Versioni :

    • 1.0.0 (impostazione predefinita): versione iniziale.
  • Dimensioni del download : Unknown size

  • Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
    Scarica tutti i file per la versione 2019 del set di dati (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) dal sito web youtube-vis e spostali in ~/tensorflow_datasets/ download/manuale/.

Tieni presente che la pagina di destinazione del set di dati si trova su https://youtube-vos.org/dataset/vis/ e ti reindirizzerà quindi a una pagina su https://competitions.codalab.org dove puoi scaricare la versione 2019 del set di dati. Dovrai creare un account su codalab per scaricare i dati. Si noti che al momento della stesura di questo documento, sarà necessario ignorare un avviso "Connessione non sicura" quando si accede a codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configurazione predefinita)

  • Descrizione della configurazione : la versione a piena risoluzione del set di dati, con tutti i frame, inclusi quelli senza etichette, inclusi.

  • Dimensione del set di dati: 33.31 GiB

  • Divisioni :

Diviso Esempi
'test' 343
'train' 2.238
'validation' 302
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, Nessuno, Nessuno, 1) uint8
video Video (Immagine) (Nessuno, Nessuno, Nessuno, 3) uint8

youtube_vis/480_640_full

  • Descrizione della configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640 con tutti i frame inclusi.

  • Dimensione del set di dati: 130.02 GiB

  • Divisioni :

Diviso Esempi
'test' 343
'train' 2.238
'validation' 302
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, 480, 640, 1) uint8
video Video (Immagine) (Nessuno, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Descrizione della configurazione : tutte le immagini sono ridimensionate bilinearmente a 480 X 640 con solo frame con etichette incluse.

  • Dimensione del set di dati: 26.27 GiB

  • Divisioni :

Diviso Esempi
'test' 343
'train' 2.238
'validation' 302
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, 480, 640, 1) uint8
video Video (Immagine) (Nessuno, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Descrizione della configurazione : solo le immagini con etichette incluse nella loro risoluzione nativa.

  • Dimensione del set di dati: 6.91 GiB

  • Divisioni :

Diviso Esempi
'test' 343
'train' 2.238
'validation' 302
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, Nessuno, Nessuno, 1) uint8
video Video (Immagine) (Nessuno, Nessuno, Nessuno, 3) uint8

youtube_vis/full_train_split

  • Descrizione della configurazione : la versione a piena risoluzione del set di dati, con tutti i frame, inclusi quelli senza etichette, inclusi. Le suddivisioni val e test sono prodotte dai dati di addestramento.

  • Dimensione del set di dati: 26.09 GiB

  • Divisioni :

Diviso Esempi
'test' 200
'train' 1.838
'validation' 200
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, Nessuno, Nessuno, 1) uint8
video Video (Immagine) (Nessuno, Nessuno, Nessuno, 3) uint8

youtube_vis/480_640_full_train_split

  • Descrizione della configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640 con tutti i frame inclusi. Le suddivisioni val e test sono prodotte dai dati di addestramento.

  • Dimensione del set di dati: 101.57 GiB

  • Divisioni :

Diviso Esempi
'test' 200
'train' 1.838
'validation' 200
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, 480, 640, 1) uint8
video Video (Immagine) (Nessuno, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Descrizione della configurazione : tutte le immagini sono ridimensionate bilinearmente a 480 X 640 con solo frame con etichette incluse. Le suddivisioni val e test sono prodotte dai dati di addestramento.

  • Dimensione del set di dati: 20.55 GiB

  • Divisioni :

Diviso Esempi
'test' 200
'train' 1.838
'validation' 200
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, 480, 640, 1) uint8
video Video (Immagine) (Nessuno, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Descrizione della configurazione : solo le immagini con etichette incluse nella loro risoluzione nativa. Le suddivisioni val e test sono prodotte dai dati di addestramento.

  • Dimensione del set di dati: 5.46 GiB

  • Divisioni :

Diviso Esempi
'test' 200
'train' 1.838
'validation' 200
  • Struttura delle caratteristiche :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Documentazione delle funzionalità :
Caratteristica Classe Forma Tipo D Descrizione
CaratteristicheDict
metadati CaratteristicheDict
metadati/altezza Tensore int32
metadati/num_frame Tensore int32
metadati/nome_video Tensore corda
metadati/larghezza Tensore int32
brani Sequenza
tracce/aree Sequenza (tensore) (Nessuno,) galleggiante32
tracce/bbox Sequenza(BBoxFeature) (Nessuno, 4) galleggiante32
tracce/categoria ClassLabel int64
tracce/frame Sequenza (tensore) (Nessuno,) int32
tracce/è_folla Tensore bool
tracce/segmentazioni Video (Immagine) (Nessuno, Nessuno, Nessuno, 1) uint8
video Video (Immagine) (Nessuno, Nessuno, Nessuno, 3) uint8