youtube_vis

  • Açıklama :

Youtube-vis, bir video örneği segmentasyon veri kümesidir. 2.883 adet yüksek çözünürlüklü YouTube videosu, kişi, hayvan ve araç gibi 40 yaygın nesneyi içeren piksel başına bir kategori etiketi seti, 4.883 benzersiz video örneği ve 131.000 yüksek kaliteli manuel açıklama içerir.

YouTube-VIS veri seti, 2.238 eğitim videosu, 302 doğrulama videosu ve 343 test videosuna bölünmüştür.

Ön işleme sırasında hiçbir dosya kaldırılmadı veya değiştirilmedi.

  • Ek Belgeler : Belgeleri Keşfedin

  • Anasayfa : https://youtube-vos.org/dataset/vis/

  • Kaynak kodu : tfds.video.youtube_vis.YoutubeVis

  • sürümler :

    • 1.0.0 (varsayılan): İlk sürüm.
  • İndirme boyutu : Unknown size

  • Manuel indirme talimatları : Bu veri kümesi, kaynak verileri manuel olarak download_config.manual_dir içine download_config.manual_dir gerektirir (varsayılan olarak ~/tensorflow_datasets/downloads/manual/ ):
    Lütfen veri kümesinin 2019 sürümü için tüm dosyaları (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) youtube-vis web sitesinden indirin ve ~/tensorflow_datasets/ konumuna taşıyın indirmeler/kılavuz/.

Veri kümesi açılış sayfasının https://youtube-vos.org/dataset/vis/ adresinde bulunduğunu ve ardından sizi https://competitions.codalab.org adresinde 2019 sürümünü indirebileceğiniz bir sayfaya yönlendireceğini unutmayın. veri kümesinin Verileri indirmek için codalab'da bir hesap oluşturmanız gerekecek. Bunu yazarken, codalab'a erişirken "Bağlantı güvenli değil" uyarısını atlamanız gerekeceğini unutmayın.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (varsayılan yapılandırma)

  • Yapılandırma açıklaması : Etiketsiz olanlar da dahil olmak üzere tüm çerçevelerle birlikte veri kümesinin tam çözünürlüklü sürümü.

  • Veri kümesi boyutu : 33.31 GiB

  • bölmeler :

Bölmek örnekler
'test' 343
'train' 2.238
'validation' 302
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, Yok, Yok, 1) uint8
video Video(Resim) (Yok, Yok, Yok, 3) uint8

youtube_vis/480_640_full

  • Yapılandırma açıklaması : Tüm görüntüler, tüm çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır.

  • Veri kümesi boyutu : 130.02 GiB

  • bölmeler :

Bölmek örnekler
'test' 343
'train' 2.238
'validation' 302
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, 480, 640, 1) uint8
video Video(Resim) (Yok, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • Yapılandırma açıklaması : Tüm görüntüler, yalnızca etiketli çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır.

  • Veri kümesi boyutu : 26.27 GiB

  • bölmeler :

Bölmek örnekler
'test' 343
'train' 2.238
'validation' 302
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, 480, 640, 1) uint8
video Video(Resim) (Yok, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • Yapılandırma açıklaması : Yalnızca kendi yerel çözünürlüklerinde dahil edilen etiketlere sahip görüntüler.

  • Veri kümesi boyutu : 6.91 GiB

  • bölmeler :

Bölmek örnekler
'test' 343
'train' 2.238
'validation' 302
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, Yok, Yok, 1) uint8
video Video(Resim) (Yok, Yok, Yok, 3) uint8

youtube_vis/full_train_split

  • Yapılandırma açıklaması : Etiketsiz olanlar da dahil olmak üzere tüm çerçevelerle birlikte veri kümesinin tam çözünürlüklü sürümü. Val ve test bölmeleri, eğitim verilerinden üretilir.

  • Veri kümesi boyutu : 26.09 GiB

  • bölmeler :

Bölmek örnekler
'test' 200
'train' 1.838
'validation' 200
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, Yok, Yok, 1) uint8
video Video(Resim) (Yok, Yok, Yok, 3) uint8

youtube_vis/480_640_full_train_split

  • Yapılandırma açıklaması : Tüm görüntüler, tüm çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır. Val ve test bölmeleri, eğitim verilerinden üretilir.

  • Veri kümesi boyutu : 101.57 GiB

  • bölmeler :

Bölmek örnekler
'test' 200
'train' 1.838
'validation' 200
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, 480, 640, 1) uint8
video Video(Resim) (Yok, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • Yapılandırma açıklaması : Tüm görüntüler, yalnızca etiketli çerçeveler dahil olmak üzere çift doğrusal olarak 480 X 640 olarak yeniden boyutlandırılır. Val ve test bölmeleri, eğitim verilerinden üretilir.

  • Veri kümesi boyutu : 20.55 GiB

  • bölmeler :

Bölmek örnekler
'test' 200
'train' 1.838
'validation' 200
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, 480, 640, 1) uint8
video Video(Resim) (Yok, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • Yapılandırma açıklaması : Yalnızca kendi yerel çözünürlüklerinde dahil edilen etiketlere sahip görüntüler. Val ve test bölmeleri, eğitim verilerinden üretilir.

  • Veri kümesi boyutu : 5.46 GiB

  • bölmeler :

Bölmek örnekler
'test' 200
'train' 1.838
'validation' 200
  • Özellik yapısı :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtipi Tanım
ÖzelliklerDict
meta veri ÖzelliklerDict
meta veri/yükseklik tensör int32
meta veri/kare sayısı tensör int32
meta veri/video_adı tensör sicim
meta veri/genişlik tensör int32
izler Sekans
izler/alanlar Sıra(Tensor) (Hiçbiri,) şamandıra32
parçalar/b kutuları Sıra(BBoxFeature) (Yok, 4) şamandıra32
parçalar/kategori SınıfEtiketi int64
izler/çerçeveler Sıra(Tensor) (Hiçbiri,) int32
track/is_crowd tensör bool
izler/segmentasyonlar Video(Resim) (Yok, Yok, Yok, 1) uint8
video Video(Resim) (Yok, Yok, Yok, 3) uint8