youtube_vis

  • 説明

Youtube-visは、ビデオインスタンスのセグメンテーションデータセットです。これには、2,883の高解像度YouTubeビデオ、人、動物、乗り物などの40の一般的なオブジェクトを含むピクセルごとのカテゴリラベルセット、4,883の固有のビデオインスタンス、および131kの高品質の手動注釈が含まれています。

YouTube-VISデータセットは、2,238のトレーニングビデオ、302の検証ビデオ、および343のテストビデオに分割されています。

前処理中にファイルが削除または変更されたことはありません。

  • ホームページhttps://youtube-vos.org/dataset/vis/

  • ソースコードtfds.video.youtube_vis.YoutubeVis

  • バージョン

    • 1.0.0 (デフォルト):初期リリース。
  • ダウンロードサイズUnknown size

  • マニュアルダウンロード方法:このデータセットは、手動にソースデータをダウンロードする必要がありますdownload_config.manual_dir (デフォルトは~/tensorflow_datasets/downloads/manual/ ):
    2019バージョンのデータセットのすべてのファイル(test_all_frames.zip、test.json、train_all_frames.zip、train.json、valid_all_frames.zip、valid.json)をyoutube-vis Webサイトからダウンロードし、〜/ tensorflow_datasets /に移動してください。ダウンロード/マニュアル/。

データセットのランディングページはに位置していることを注意https://youtube-vos.org/dataset/vis/、そしてそれは、その後のページにリダイレクトされますhttps://competitions.codalab.orgあなたが2019年バージョンをダウンロードできる場所データセットの。データをダウンロードするには、codalabでアカウントを作成する必要があります。これを書いている時点では、codalabにアクセスするときに「接続が安全ではありません」という警告をバイパスする必要があることに注意してください。

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / full(デフォルト設定)

  • 設定の説明:データセットのフル解像度バージョン、付属ラベルのないものを含むすべてのフレームを有します。

  • データセットサイズ33.31 GiB

  • スプリット

スプリット
'test' 343
'train' 2,238
'validation' 302
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full

  • コンフィグの説明:すべての画像をバイリニア含まれるすべてのフレームに480 X 640にリサイズされています。

  • データセットのサイズ130.02 GiB

  • スプリット

スプリット
'test' 343
'train' 2,238
'validation' 302
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels

  • コンフィグの説明:すべての画像をバイリニア含まラベルを持つフレームだけで480 X 640にリサイズされています。

  • データセットサイズ26.27 GiB

  • スプリット

スプリット
'test' 343
'train' 2,238
'validation' 302
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels

  • コンフィグの説明:彼らのネイティブ解像度に含まれるラベルとしたイメージのみ。

  • データセットサイズ6.91 GiB

  • スプリット

スプリット
'test' 343
'train' 2,238
'validation' 302
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / full_train_split

  • 設定の説明:データセットのフル解像度バージョン、付属ラベルのないものを含むすべてのフレームを有します。 val分割とtest分割は、トレーニングデータから作成されます。

  • データセットサイズ26.09 GiB

  • スプリット

スプリット
'test' 200
'train' 1,838
'validation' 200
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_full_train_split

  • コンフィグの説明:すべての画像をバイリニア含まれるすべてのフレームに480 X 640にリサイズされています。 val分割とtest分割は、トレーニングデータから作成されます。

  • データセットのサイズ101.57 GiB

  • スプリット

スプリット
'test' 200
'train' 1,838
'validation' 200
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / 480_640_only_frames_with_labels_train_split

  • コンフィグの説明:すべての画像をバイリニア含まラベルを持つフレームだけで480 X 640にリサイズされています。 val分割とtest分割は、トレーニングデータから作成されます。

  • データセットサイズ20.55 GiB

  • スプリット

スプリット
'test' 200
'train' 1,838
'validation' 200
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis / only_frames_with_labels_train_split

  • コンフィグの説明:彼らのネイティブ解像度に含まれるラベルとしたイメージのみ。 val分割とtest分割は、トレーニングデータから作成されます。

  • データセットサイズ5.46 GiB

  • スプリット

スプリット
'test' 200
'train' 1,838
'validation' 200
  • 特長
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})