ref_coco

Opis :

Zbiór 3 zestawów danych dotyczących wyrażeń odnoszących się do obrazów w zestawie danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zbiory danych są gromadzone poprzez proszenie osób oceniających o ujednoznacznienie obiektów wyznaczonych przez ramki ograniczające w zbiorze danych COCO.

RefCoco i RefCoco+ pochodzą od Kazemzadeha i in. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, co jest egzekwowane, uniemożliwiając oceniającym korzystanie z opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem RefCoco+). RefCocoG pochodzi od Mao i in. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności dane RefCoco zebrano w środowisku interaktywnym, podczas gdy RefCocoG zebrano w środowisku nieinteraktywnym. RefCocoG ma średnio 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.

Każdy zbiór danych ma różne przydziały podziału, które zazwyczaj są podawane w artykułach. Zestawy „testA” i „testB” w RefCoco i RefCoco+ zawierają odpowiednio tylko osoby i tylko nieludzi. Obrazy są podzielone na różne części. W przypadku podziału „google” obiekty, a nie obrazy, są dzielone na części pociągowe i inne niż pociągowe. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odnosi się obraz, będą różne w obu zestawach. Natomiast „unc” i „umd” dzielą obrazy partycji pomiędzy pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testów, a zestaw walidacyjny jest zwykle podawany w artykułach jako „val*”.

Statystyki dla każdego zbioru danych i podziału („refs” to liczba odwołujących się wyrażeń, a „obrazy” to liczba obrazów):

zbiór danych	przegroda	podział	ref	obrazy
refcoco	Google	pociąg	40000	19213
refcoco	Google	wal	5000	4559
refcoco	Google	test	5000	4527
refcoco	wuj	pociąg	42404	16994
refcoco	wuj	wal	3811	1500
refcoco	wuj	testA	1975	750
refcoco	wuj	testB	1810	750
refcoco+	wuj	pociąg	42278	16992
refcoco+	wuj	wal	3805	1500
refcoco+	wuj	testA	1975	750
refcoco+	wuj	testB	1798	750
refcocog	Google	pociąg	44822	24698
refcocog	Google	wal	5000	4650
refcocog	umd	pociąg	42226	21899
refcocog	umd	wal	2573	1300
refcocog	umd	test	5023	2600

Dodatkowa dokumentacja : Eksploruj w dokumentach z kodem
Strona główna : https://github.com/lichengunc/refer
Kod źródłowy : tfds.datasets.ref_coco.Builder
Wersje :
- 1.0.0 : Pierwsza wersja.
- 1.1.0 (domyślnie): Dodano maski.
Rozmiar pobierania : Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do download_config.manual_dir (domyślnie jest to ~/tensorflow_datasets/downloads/manual/ ):
Postępuj zgodnie z instrukcjami w https://github.com/lichengunc/refer i pobierz adnotacje i obrazy pasujące do katalogu data/ określonego w repozytorium.

Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi , aby uzyskać pycocotools i plik adnotacji instancji_train2014 z https://cocodataset.org/#download
Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojego PYTHONPATH.
Uruchom manual_download_process.py, aby wygenerować plik refcoco.json, zastępując ref_data_root , coco_annotations_file i out_file wartościami odpowiadającymi miejscu, gdzie pobrałeś/chcesz zapisać te pliki. Pamiętaj, że plik manual_download_process.py można znaleźć w repozytorium TFDS.
Pobierz zestaw szkoleniowy COCO ze strony https://cocodataset.org/#download i wklej go do folderu o nazwie coco_train2014/ . Przenieś refcoco.json na ten sam poziom co coco_train2014 .
Postępuj zgodnie ze standardowymi instrukcjami ręcznego pobierania.

Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

Dokumentacja funkcji :

Funkcja	Klasa	Kształt	Typ D
	FunkcjeDykt
koko_adnotacje	Sekwencja
coco_annotations/area	Napinacz		int64
coco_annotations/bbox	Funkcja BBox	(4,)	pływak32
coco_annotations/id	Napinacz		int64
coco_annotations/label	Napinacz		int64
obraz	Obraz	(Brak, Brak, 3)	uint8
obraz/identyfikator	Napinacz		int64
obiekty	Sekwencja
obiekty/obszar	Napinacz		int64
obiekty/bbox	Funkcja BBox	(4,)	pływak32
obiekty/gt_box_index	Napinacz		int64
obiekty/identyfikator	Napinacz		int64
obiekty/etykieta	Napinacz		int64
obiekty/maska	Obraz	(Brak, Brak, 3)	uint8
obiekty/odruch	Sekwencja
obiekty/refexp/raw	Tekst		strunowy
obiekty/refexp/idexp_refexp	Napinacz		int64

Klucze nadzorowane (zobacz dokument as_supervised ): None
Cytat :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}