youtube_vis

  • Deskripsi :

Youtube-vis adalah kumpulan data segmentasi instance video. Ini berisi 2.883 video YouTube beresolusi tinggi, kumpulan label kategori per piksel yang mencakup 40 objek umum seperti orang, hewan, dan kendaraan, 4.883 contoh video unik, dan 131 ribu anotasi manual berkualitas tinggi.

Dataset YouTube-VIS dibagi menjadi 2.238 video pelatihan, 302 video validasi, dan 343 video pengujian.

Tidak ada file yang dihapus atau diubah selama pemrosesan awal.

  • Dokumentasi Tambahan : Jelajahi di Makalah Dengan Kode

  • Beranda : https://youtube-vos.org/dataset/vis/

  • Kode sumber : tfds.video.youtube_vis.YoutubeVis

  • Versi :

    • 1.0.0 (default): Rilis awal.
  • Ukuran unduhan : Unknown size

  • Instruksi pengunduhan manual : Kumpulan data ini mengharuskan Anda mengunduh data sumber secara manual ke download_config.manual_dir (default ke ~/tensorflow_datasets/downloads/manual/ ):
    Unduh semua file untuk set data versi 2019 (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) dari situs web youtube-vis dan pindahkan ke ~/tensorflow_datasets/ download/manual/.

Perhatikan bahwa halaman arahan kumpulan data terletak di https://youtube-vos.org/dataset/vis/, dan kemudian akan mengarahkan Anda ke halaman di https://competitions.codalab.org tempat Anda dapat mengunduh versi 2019 dari kumpulan data. Anda harus membuat akun di codalab untuk mengunduh data. Perhatikan bahwa pada saat penulisan ini, Anda harus mengabaikan peringatan "Koneksi tidak aman" saat mengakses codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (konfigurasi default)

  • Deskripsi konfigurasi : Versi resolusi penuh dari kumpulan data, dengan semua bingkai, termasuk yang tanpa label, disertakan.

  • Ukuran dataset : 33.31 GiB

  • Perpecahan :

Membelah Contoh
'test' 343
'train' 2.238
'validation' 302
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 1) uint8
video Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 3) uint8

youtube_vis/480_640_full

  • Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 dengan menyertakan semua bingkai.

  • Ukuran dataset : 130.02 GiB

  • Perpecahan :

Membelah Contoh
'test' 343
'train' 2.238
'validation' 302
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, 480, 640, 1) uint8
video Video(Gambar) (Tidak ada, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 hanya dengan bingkai dengan label yang disertakan.

  • Ukuran dataset : 26.27 GiB

  • Perpecahan :

Membelah Contoh
'test' 343
'train' 2.238
'validation' 302
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, 480, 640, 1) uint8
video Video(Gambar) (Tidak ada, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Deskripsi konfigurasi : Hanya gambar dengan label yang disertakan pada resolusi aslinya.

  • Ukuran dataset : 6.91 GiB

  • Perpecahan :

Membelah Contoh
'test' 343
'train' 2.238
'validation' 302
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 1) uint8
video Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 3) uint8

youtube_vis/full_train_split

  • Deskripsi konfigurasi : Versi resolusi penuh dari kumpulan data, dengan semua bingkai, termasuk yang tanpa label, disertakan. Pemisahan val dan pengujian dibuat dari data pelatihan.

  • Ukuran dataset : 26.09 GiB

  • Perpecahan :

Membelah Contoh
'test' 200
'train' 1.838
'validation' 200
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 1) uint8
video Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 3) uint8

youtube_vis/480_640_full_train_split

  • Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 dengan menyertakan semua bingkai. Pemisahan val dan pengujian dibuat dari data pelatihan.

  • Ukuran dataset : 101.57 GiB

  • Perpecahan :

Membelah Contoh
'test' 200
'train' 1.838
'validation' 200
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, 480, 640, 1) uint8
video Video(Gambar) (Tidak ada, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Deskripsi konfigurasi : Semua gambar diubah ukurannya secara bilinear menjadi 480 X 640 hanya dengan bingkai dengan label yang disertakan. Pemisahan val dan pengujian dibuat dari data pelatihan.

  • Ukuran dataset : 20.55 GiB

  • Perpecahan :

Membelah Contoh
'test' 200
'train' 1.838
'validation' 200
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, 480, 640, 1) uint8
video Video(Gambar) (Tidak ada, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Deskripsi konfigurasi : Hanya gambar dengan label yang disertakan pada resolusi aslinya. Pemisahan val dan pengujian dibuat dari data pelatihan.

  • Ukuran dataset : 5.46 GiB

  • Perpecahan :

Membelah Contoh
'test' 200
'train' 1.838
'validation' 200
  • Struktur fitur :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Dokumentasi fitur :
Fitur Kelas Membentuk Dtype Keterangan
fiturDict
metadata fiturDict
metadata/tinggi Tensor int32
metadata/num_frames Tensor int32
metadata/nama_video Tensor rangkaian
metadata/lebar Tensor int32
trek Urutan
jalur/area Urutan (Tensor) (Tidak ada,) float32
track/bbox Urutan (Fitur BBox) (Tidak ada, 4) float32
trek/kategori LabelKelas int64
track/frame Urutan (Tensor) (Tidak ada,) int32
track/is_crowd Tensor bool
trek/segmentasi Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 1) uint8
video Video(Gambar) (Tidak ada, Tidak ada, Tidak ada, 3) uint8