TFDS sekarang mendukung format Croissant 🥐 ! Baca dokumentasi untuk mengetahui lebih lanjut.

Halaman ini diterjemahkan oleh Cloud Translation API.

youtube_vis

Deskripsi :

Youtube-vis adalah kumpulan data segmentasi instance video. Ini berisi 2.883 video YouTube beresolusi tinggi, kumpulan label kategori per piksel yang mencakup 40 objek umum seperti orang, hewan, dan kendaraan, 4.883 contoh video unik, dan 131 ribu anotasi manual berkualitas tinggi.

Dataset YouTube-VIS dibagi menjadi 2.238 video pelatihan, 302 video validasi, dan 343 video pengujian.

Tidak ada file yang dihapus atau diubah selama pemrosesan awal.

Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode
Beranda : https://youtube-vos.org/dataset/vis/
Kode sumber : tfds.video.youtube_vis.YoutubeVis
Versi :
- 1.0.0 (default): Rilis awal.
Ukuran unduhan : Unknown size
Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
Unduh semua file untuk set data versi 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) dari situs web youtube-vis dan pindahkan ke ~/tensorflow_datasets/ download/manual/.

Perhatikan bahwa halaman arahan kumpulan data terletak di https://youtube-vos.org/dataset/vis/, dan kemudian akan mengarahkan Anda ke halaman di https://competitions.codalab.org tempat Anda dapat mengunduh versi 2019 dari kumpulan data. Anda harus membuat akun di codalab untuk mengunduh data. Perhatikan bahwa pada saat penulisan ini, Anda harus mengabaikan peringatan "Koneksi tidak aman" saat mengakses codalab.

Di-cache otomatis ( dokumentasi ): Tidak
Kunci yang diawasi (Lihat as_supervised doc ): None
Gambar ( tfds.show_examples ): Tidak didukung.
Kutipan :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (konfigurasi default)

Deskripsi konfigurasi : Versi resolusi penuh dari kumpulan data, dengan semua bingkai, termasuk yang tanpa label, disertakan.
Ukuran dataset : 33.31 GiB
Perpecahan :

Membelah	Contoh
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 1)	uint8
video	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/480_640_full

Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 dengan menyertakan semua bingkai.
Ukuran dataset : 130.02 GiB
Perpecahan :

Membelah	Contoh
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, 480, 640, 1)	uint8
video	Video(Gambar)	(Tidak ada, 480, 640, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels

Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 hanya dengan bingkai dengan label yang disertakan.
Ukuran dataset : 26.27 GiB
Perpecahan :

Membelah	Contoh
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, 480, 640, 1)	uint8
video	Video(Gambar)	(Tidak ada, 480, 640, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels

Deskripsi konfigurasi : Hanya gambar dengan label yang disertakan pada resolusi aslinya.
Ukuran dataset : 6.91 GiB
Perpecahan :

Membelah	Contoh
`'test'`	343
`'train'`	2.238
`'validation'`	302

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 1)	uint8
video	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/full_train_split

Deskripsi konfigurasi : Versi resolusi penuh dari kumpulan data, dengan semua bingkai, termasuk yang tanpa label, disertakan. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset : 26.09 GiB
Perpecahan :

Membelah	Contoh
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 1)	uint8
video	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/480_640_full_train_split

Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 dengan menyertakan semua bingkai. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset : 101.57 GiB
Perpecahan :

Membelah	Contoh
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, 480, 640, 1)	uint8
video	Video(Gambar)	(Tidak ada, 480, 640, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/480_640_only_frames_with_labels_train_split

Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 hanya dengan bingkai dengan label yang disertakan. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset : 20.55 GiB
Perpecahan :

Membelah	Contoh
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, 480, 640, 1)	uint8
video	Video(Gambar)	(Tidak ada, 480, 640, 3)	uint8

Contoh ( tfds.as_dataframe ):

youtube_vis/only_frames_with_labels_train_split

Deskripsi konfigurasi : Hanya gambar dengan label yang disertakan pada resolusi aslinya. Pemisahan val dan pengujian dibuat dari data pelatihan.
Ukuran dataset : 5.46 GiB
Perpecahan :

Membelah	Contoh
`'test'`	200
`'train'`	1.838
`'validation'`	200

Struktur fitur :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentasi fitur :

Fitur	Kelas	Membentuk	Dtype
	fiturDict
metadata	fiturDict
metadata/tinggi	Tensor		int32
metadata/num_frames	Tensor		int32
metadata/nama_video	Tensor		rangkaian
metadata/lebar	Tensor		int32
trek	Urutan
jalur/area	Urutan (Tensor)	(Tidak ada,)	float32
track/bbox	Urutan (Fitur BBox)	(Tidak ada, 4)	float32
trek/kategori	LabelKelas		int64
track/frame	Urutan (Tensor)	(Tidak ada,)	int32
track/is_crowd	Tensor		bool
trek/segmentasi	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 1)	uint8
video	Video(Gambar)	(Tidak ada, Tidak ada, Tidak ada, 3)	uint8

Contoh ( tfds.as_dataframe ):