tao

opis :

Zestaw danych TAO to duży zbiór danych wykrywania obiektów wideo, składający się z 2907 filmów wideo o wysokiej rozdzielczości i 833 kategorii obiektów. Pamiętaj, że ten zestaw danych wymaga co najmniej 300 GB wolnego miejsca do przechowywania.

Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://taodataset.org/
Kod źródłowy : tfds.video.tao.Tao
Wersje :
- 1.0.0 (domyślnie): Wersja początkowa.
Rozmiar pliku do pobrania : 113.96 GiB
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu download_config.manual_dir (domyślnie ~/tensorflow_datasets/downloads/manual/ ):
Niektóre pliki TAO (filmy HVACS i AVA) należy pobrać ręcznie, ponieważ wymagane jest zalogowanie się do MOT. Proszę pobrać i te dane zgodnie z instrukcjami na https://motchallenge.net/tao_download.php

Pobierz te dane i przenieś wynikowe pliki .zip do ~/tensorflow_datasets/downloads/manual/

Jeśli nie ma danych wymagających ręcznego pobrania, zostaną one pominięte i użyte zostaną tylko te dane, które nie wymagają ręcznego pobrania.

Automatyczne buforowanie ( dokumentacja ): Nie
Podziały :

Rozdzielać	Przykłady
`'train'`	500
`'validation'`	988

Klucze nadzorowane (Zobacz dokument as_supervised ): None
Rysunek ( tfds.show_examples ): Nieobsługiwany.
Cytat :

@article{Dave_2020,
   title={TAO: A Large-Scale Benchmark for Tracking Any Object},
   ISBN={9783030585587},
   ISSN={1611-3349},
   url={http://dx.doi.org/10.1007/978-3-030-58558-7_26},
   DOI={10.1007/978-3-030-58558-7_26},
   journal={Lecture Notes in Computer Science},
   publisher={Springer International Publishing},
   author={Dave, Achal and Khurana, Tarasha and Tokmakov, Pavel and Schmid, Cordelia and Ramanan, Deva},
   year={2020},
   pages={436-454}
}

tao/480_640 (domyślna konfiguracja)

Opis konfiguracji : Wszystkie obrazy są dwuliniowo zmieniane na 480 X 640
Rozmiar zestawu danych : 482.30 GiB
Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/zbiór danych	Napinacz		strunowy
metadane/wysokość	Napinacz		int32
metadane/neg_category_ids	Napinacz	(Nic,)	int32
metadane/nie_wyczerpujące_identyfikatory_kategorii	Napinacz	(Nic,)	int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
utwory/skala_kategorii	Napinacz		strunowy
ścieżki/identyfikator_ścieżki	Napinacz		int32
wideo	Wideo (obraz)	(Brak, 480, 640, 3)	uint8

Przykłady ( tfds.as_dataframe ):

tao/pełna_rozdzielczość

Opis konfiguracji : wersja zestawu danych w pełnej rozdzielczości.
Rozmiar zestawu danych : 171.24 GiB
Struktura funkcji :

FeaturesDict({
    'metadata': FeaturesDict({
        'dataset': string,
        'height': int32,
        'neg_category_ids': Tensor(shape=(None,), dtype=int32),
        'not_exhaustive_category_ids': Tensor(shape=(None,), dtype=int32),
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=363),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'scale_category': string,
        'track_id': int32,
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDict
metadane	FunkcjeDict
metadane/zbiór danych	Napinacz		strunowy
metadane/wysokość	Napinacz		int32
metadane/neg_category_ids	Napinacz	(Nic,)	int32
metadane/nie_wyczerpujące_identyfikatory_kategorii	Napinacz	(Nic,)	int32
metadane/liczba_ramek	Napinacz		int32
metadane/nazwa_wideo	Napinacz		strunowy
metadane/szerokość	Napinacz		int32
utwory	Sekwencja
utwory/bboxy	Sekwencja (BBoxFeature)	(Brak, 4)	pływak32
utwory/kategoria	Etykieta klasy		int64
tory/ramki	Sekwencja (Tensor)	(Nic,)	int32
tory/jest_tłum	Napinacz		bool
utwory/skala_kategorii	Napinacz		strunowy
ścieżki/identyfikator_ścieżki	Napinacz		int32
wideo	Wideo (obraz)	(Brak, Brak, Brak, 3)	uint8

Przykłady ( tfds.as_dataframe ):