Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

youtube_vis

  • opis:

Youtube-vis to zbiór danych segmentacji instancji wideo. Zawiera 2883 filmy z YouTube w wysokiej rozdzielczości, zestaw etykiet kategorii na piksel, w tym 40 typowych obiektów, takich jak osoby, zwierzęta i pojazdy, 4883 unikalnych wystąpień wideo i 131 tys. wysokiej jakości ręcznych adnotacji.

Zbiór danych YouTube-VIS jest podzielony na 2238 filmów szkoleniowych, 302 filmy weryfikacyjne i 343 filmy testowe.

Żadne pliki nie zostały usunięte ani zmienione podczas przetwarzania wstępnego.

  • Strona domowa: https://youtube-vos.org/dataset/vis/

  • Kod źródłowy: tfds.video.youtube_vis.YoutubeVis

  • wersje:

    • 1.0.0 (domyślnie): Pierwsza wersja.
  • Wielkość pliku: Unknown size

  • Ręczne pobieranie instrukcje: Ten zestaw danych wymaga, aby ręcznie pobrać dane źródłowe do download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ )
    Pobierz wszystkie pliki dla wersji zestawu danych z 2019 r. (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) ze strony youtube-vis i przenieś je do ~/tensorflow_datasets/ pliki do pobrania/podręcznik/.

Należy zauważyć, że strona zbiór danych lądowania znajduje się na https://youtube-vos.org/dataset/vis/, a zostanie on przekierowany do strony, na https://competitions.codalab.org gdzie można pobrać wersję 2019 zbioru danych. Aby pobrać dane, musisz założyć konto na codalab. Zauważ, że w momencie pisania tego tekstu, będziesz musiał pominąć ostrzeżenie „Połączenie nie jest bezpieczne” podczas uzyskiwania dostępu do codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (konfiguracja domyślna)

  • Opis config: Pełna rozdzielczość wersja zbioru danych, z wszystkich klatek, w tym bez etykiet włączone.

  • Zbiór danych rozmiar: 33.31 GiB

  • dzieli:

Podział Przykłady
'test' 343
'train' 2238
'validation' 302
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_full

  • Opis config: Wszystkie obrazy są bilinearly przeskalowane do 480 x 640 z wszystkich klatek zawartych.

  • Zbiór danych rozmiar: 130.02 GiB

  • dzieli:

Podział Przykłady
'test' 343
'train' 2238
'validation' 302
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_only_frames_with_labels

  • Opis config: Wszystkie obrazy są bilinearly przeskalowane do 480 x 640 tylko z ramek z etykietami zawartych.

  • Zbiór danych rozmiar: 26.27 GiB

  • dzieli:

Podział Przykłady
'test' 343
'train' 2238
'validation' 302
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/only_frames_with_labels

  • Opis config: Tylko zdjęcia z etykietami zawartych w ich natywnej rozdzielczości.

  • Zestaw danych rozmiar: 6.91 GiB

  • dzieli:

Podział Przykłady
'test' 343
'train' 2238
'validation' 302
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/full_train_split

  • Opis config: Pełna rozdzielczość wersja zbioru danych, z wszystkich klatek, w tym bez etykiet włączone. Podziały val i test są tworzone z danych uczących.

  • Zbiór danych rozmiar: 26.09 GiB

  • dzieli:

Podział Przykłady
'test' 200
'train' 1838
'validation' 200
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_full_train_split

  • Opis config: Wszystkie obrazy są bilinearly przeskalowane do 480 x 640 z wszystkich klatek zawartych. Podziały val i test są tworzone z danych uczących.

  • Zbiór danych rozmiar: 101.57 GiB

  • dzieli:

Podział Przykłady
'test' 200
'train' 1,838
'validation' 200
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_only_frames_with_labels_train_split

  • Opis config: Wszystkie obrazy są bilinearly przeskalowane do 480 x 640 tylko z ramek z etykietami zawartych. Podziały val i test są tworzone z danych uczących.

  • Zbiór danych rozmiar: 20.55 GiB

  • dzieli:

Podział Przykłady
'test' 200
'train' 1838
'validation' 200
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/only_frames_with_labels_train_split

  • Opis config: Tylko zdjęcia z etykietami zawartych w ich natywnej rozdzielczości. Podziały val i test są tworzone z danych uczących.

  • Zbiór danych rozmiar: 5.46 GiB

  • dzieli:

Podział Przykłady
'test' 200
'train' 1,838
'validation' 200
  • Cechy:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})