TFDS ora supporta il formato Croissant 🥐 ! Leggi la documentazione per saperne di più.

Questa pagina è stata tradotta dall'API Cloud Translation.

youtube_vis

Descrizione :

Youtube-vis è un set di dati di segmentazione di istanze video. Contiene 2.883 video YouTube ad alta risoluzione, un set di etichette di categoria per pixel che include 40 oggetti comuni come persone, animali e veicoli, 4.883 istanze video uniche e 131.000 annotazioni manuali di alta qualità.

Il set di dati YouTube-VIS è suddiviso in 2.238 video di formazione, 302 video di convalida e 343 video di test.

Nessun file è stato rimosso o alterato durante la pre-elaborazione.

Documentazione aggiuntiva : Esplora documenti con codice
Pagina iniziale : https://youtube-vos.org/dataset/vis/
Codice sorgente : tfds.video.youtube_vis.YoutubeVis
Versioni :
- 1.0.0 (impostazione predefinita): versione iniziale.
Dimensioni del download : Unknown size
Istruzioni per il download manuale : questo set di dati richiede di scaricare manualmente i dati di origine in download_config.manual_dir (il valore predefinito ~/tensorflow_datasets/downloads/manual/ ):
Scarica tutti i file per la versione 2019 del set di dati (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) dal sito web youtube-vis e spostali in ~/tensorflow_datasets/ download/manuale/.

Tieni presente che la pagina di destinazione del set di dati si trova su https://youtube-vos.org/dataset/vis/ e ti reindirizzerà quindi a una pagina su https://competitions.codalab.org dove puoi scaricare la versione 2019 del set di dati. Dovrai creare un account su codalab per scaricare i dati. Si noti che al momento della stesura di questo documento, sarà necessario ignorare un avviso "Connessione non sicura" quando si accede a codalab.

Cache automatica ( documentazione ): No
Chiavi supervisionate (Vedi as_supervised doc ): None
Figura ( tfds.show_examples ): non supportato.
Citazione :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (configurazione predefinita)

Descrizione della configurazione : la versione a piena risoluzione del set di dati, con tutti i frame, inclusi quelli senza etichette, inclusi.
Dimensione del set di dati: 33.31 GiB
Divisioni :

Diviso	Esempi
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 1)	uint8
video	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/480_640_full

Descrizione della configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640 con tutti i frame inclusi.
Dimensione del set di dati: 130.02 GiB
Divisioni :

Diviso	Esempi
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, 480, 640, 1)	uint8
video	Video (Immagine)	(Nessuno, 480, 640, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Descrizione della configurazione : tutte le immagini sono ridimensionate bilinearmente a 480 X 640 con solo frame con etichette incluse.
Dimensione del set di dati: 26.27 GiB
Divisioni :

Diviso	Esempi
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, 480, 640, 1)	uint8
video	Video (Immagine)	(Nessuno, 480, 640, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Descrizione della configurazione : solo le immagini con etichette incluse nella loro risoluzione nativa.
Dimensione del set di dati: 6.91 GiB
Divisioni :

Diviso	Esempi
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 1)	uint8
video	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/full_train_split

Descrizione della configurazione : la versione a piena risoluzione del set di dati, con tutti i frame, inclusi quelli senza etichette, inclusi. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati: 26.09 GiB
Divisioni :

Diviso	Esempi
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 1)	uint8
video	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Descrizione della configurazione : tutte le immagini vengono ridimensionate bilinearmente a 480 X 640 con tutti i frame inclusi. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati: 101.57 GiB
Divisioni :

Diviso	Esempi
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, 480, 640, 1)	uint8
video	Video (Immagine)	(Nessuno, 480, 640, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Descrizione della configurazione : tutte le immagini sono ridimensionate bilinearmente a 480 X 640 con solo frame con etichette incluse. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati: 20.55 GiB
Divisioni :

Diviso	Esempi
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, 480, 640, 1)	uint8
video	Video (Immagine)	(Nessuno, 480, 640, 3)	uint8

Esempi ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Descrizione della configurazione : solo le immagini con etichette incluse nella loro risoluzione nativa. Le suddivisioni val e test sono prodotte dai dati di addestramento.
Dimensione del set di dati: 5.46 GiB
Divisioni :

Diviso	Esempi
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struttura delle caratteristiche :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Documentazione delle funzionalità :

Caratteristica	Classe	Forma	Tipo D
	CaratteristicheDict
metadati	CaratteristicheDict
metadati/altezza	Tensore		int32
metadati/num_frame	Tensore		int32
metadati/nome_video	Tensore		corda
metadati/larghezza	Tensore		int32
brani	Sequenza
tracce/aree	Sequenza (tensore)	(Nessuno,)	galleggiante32
tracce/bbox	Sequenza(BBoxFeature)	(Nessuno, 4)	galleggiante32
tracce/categoria	ClassLabel		int64
tracce/frame	Sequenza (tensore)	(Nessuno,)	int32
tracce/è_folla	Tensore		bool
tracce/segmentazioni	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 1)	uint8
video	Video (Immagine)	(Nessuno, Nessuno, Nessuno, 3)	uint8

Esempi ( tfds.as_dataframe ):