- opis :
Zbiór 3 zestawów danych wyrażeń referencyjnych opartych na obrazach w zbiorze danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zestawy danych są zbierane poprzez poproszenie osób oceniających o ujednoznacznienie obiektów wyznaczonych przez obwiednie w zbiorze danych COCO.
RefCoco i RefCoco+ pochodzą od Kazemzadeh et al. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, które wymuszają, uniemożliwiając oceniającym używanie opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem RefCoco+). RefCocoG pochodzi od Mao i in. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności RefCoco zostało zebrane w środowisku opartym na interaktywnej grze, podczas gdy RefCocoG zostało zebrane w środowisku nieinteraktywnym. Średnio RefCocoG ma 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.
Każdy zestaw danych ma różne alokacje podziału, które są zwykle podawane w dokumentach. Zestawy „testA” i „testB” w RefCoco i RefCoco+ zawierają odpowiednio tylko ludzi i tylko nie-ludzi. Obrazy są podzielone na różne podziały. W podziale „google” obiekty, a nie obrazy, są dzielone między pociągi i inne niż pociągi. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odnosi się obraz, będą różne w obu zestawach. W przeciwieństwie do tego „unc” i „umd” dzielą obrazy partycji między pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testów, a zbiór sprawdzania poprawności jest zwykle podawany w artykułach jako „val*”.
Statystyki dla każdego zestawu danych i podziału („refs” to liczba wyrażeń odsyłających, a „images” to liczba obrazów):
zestaw danych | przegroda | podział | ref | zdjęcia |
---|---|---|---|---|
refkoko | pociąg | 40000 | 19213 | |
refkoko | wartość | 5000 | 4559 | |
refkoko | test | 5000 | 4527 | |
refkoko | wujek | pociąg | 42404 | 16994 |
refkoko | wujek | wartość | 3811 | 1500 |
refkoko | wujek | testA | 1975 | 750 |
refkoko | wujek | test B | 1810 | 750 |
refcoco+ | wujek | pociąg | 42278 | 16992 |
refcoco+ | wujek | wartość | 3805 | 1500 |
refcoco+ | wujek | testA | 1975 | 750 |
refcoco+ | wujek | test B | 1798 | 750 |
refcocog | pociąg | 44822 | 24698 | |
refcocog | wartość | 5000 | 4650 | |
refcocog | umd | pociąg | 42226 | 21899 |
refcocog | umd | wartość | 2573 | 1300 |
refcocog | umd | test | 5023 | 2600 |
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/lichengunc/refer
Kod źródłowy :
tfds.datasets.ref_coco.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):Postępuj zgodnie z instrukcjami w https://github.com/lichengunc/refer i pobierz adnotacje oraz obrazy pasujące do katalogu data/ określonego w repozytorium.
Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi , aby pobrać pycocotools i plik adnotacji instances_train2014 z https://cocodataset.org/#download
Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojej PYTHONPATH.
Uruchom manual_download_process.py, aby wygenerować plik refcoco.json, zastępując
ref_data_root
,coco_annotations_file
iout_file
wartościami odpowiadającymi miejscu, w którym pobrałeś/chcesz zapisać te pliki. Zauważ, że manual_download_process.py można znaleźć w repozytorium TFDS.Pobierz zestaw szkoleniowy COCO z https://cocodataset.org/#download i umieść go w folderze o nazwie
coco_train2014/
. Przenieśrefcoco.json
na ten sam poziom cococo_train2014
.Postępuj zgodnie ze standardowymi ręcznymi instrukcjami pobierania.
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
coco_adnotacje | Sekwencja | |||
coco_adnotations/obszar | Napinacz | int64 | ||
coco_annotations/bbox | Funkcja BBox | (4,) | pływak32 | |
coco_adnotations/id | Napinacz | int64 | ||
coco_adnotacje/etykieta | Napinacz | int64 | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | |
obraz/identyfikator | Napinacz | int64 | ||
obiekty | Sekwencja | |||
obiekty/obszar | Napinacz | int64 | ||
obiekty/bbox | Funkcja BBox | (4,) | pływak32 | |
obiekty/gt_box_index | Napinacz | int64 | ||
obiekty/identyfikator | Napinacz | int64 | ||
obiekty/etykieta | Napinacz | int64 | ||
obiekty/odzw | Sekwencja | |||
obiekty/refexp/raw | Tekst | strunowy | ||
obiekty/refexp/refexp_id | Napinacz | int64 |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Cytat :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (domyślna konfiguracja)
Rozmiar zestawu danych :
3.24 GiB
Podziały :
Podział | Przykłady |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 994 |
'validation' | 1500 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcoco_google
Rozmiar zestawu danych :
4.60 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 4527 |
'train' | 19213 |
'validation' | 4559 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Rozmiar zestawu danych :
3.24 GiB
Podziały :
Podział | Przykłady |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 992 |
'validation' | 1500 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcocog_google
Rozmiar zestawu danych :
4.59 GiB
Podziały :
Podział | Przykłady |
---|---|
'train' | 24698 |
'validation' | 4650 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Rozmiar zestawu danych :
4.04 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2600 |
'train' | 21 899 |
'validation' | 1300 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
- opis :
Zbiór 3 zestawów danych wyrażeń referencyjnych opartych na obrazach w zbiorze danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zestawy danych są zbierane poprzez poproszenie osób oceniających o ujednoznacznienie obiektów wyznaczonych przez obwiednie w zbiorze danych COCO.
RefCoco i RefCoco+ pochodzą od Kazemzadeh et al. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, które wymuszają, uniemożliwiając oceniającym używanie opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem RefCoco+). RefCocoG pochodzi od Mao i in. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności RefCoco zostało zebrane w środowisku opartym na interaktywnej grze, podczas gdy RefCocoG zostało zebrane w środowisku nieinteraktywnym. Średnio RefCocoG ma 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.
Każdy zestaw danych ma różne alokacje podziału, które są zwykle podawane w dokumentach. Zestawy „testA” i „testB” w RefCoco i RefCoco+ zawierają odpowiednio tylko ludzi i tylko nie-ludzi. Obrazy są podzielone na różne podziały. W podziale „google” obiekty, a nie obrazy, są dzielone między pociągi i inne niż pociągi. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odnosi się obraz, będą różne w obu zestawach. W przeciwieństwie do tego „unc” i „umd” dzielą obrazy partycji między pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testów, a zbiór sprawdzania poprawności jest zwykle podawany w artykułach jako „val*”.
Statystyki dla każdego zestawu danych i podziału („refs” to liczba wyrażeń odsyłających, a „images” to liczba obrazów):
zestaw danych | przegroda | podział | ref | zdjęcia |
---|---|---|---|---|
refkoko | pociąg | 40000 | 19213 | |
refkoko | wartość | 5000 | 4559 | |
refkoko | test | 5000 | 4527 | |
refkoko | wujek | pociąg | 42404 | 16994 |
refkoko | wujek | wartość | 3811 | 1500 |
refkoko | wujek | testA | 1975 | 750 |
refkoko | wujek | test B | 1810 | 750 |
refcoco+ | wujek | pociąg | 42278 | 16992 |
refcoco+ | wujek | wartość | 3805 | 1500 |
refcoco+ | wujek | testA | 1975 | 750 |
refcoco+ | wujek | test B | 1798 | 750 |
refcocog | pociąg | 44822 | 24698 | |
refcocog | wartość | 5000 | 4650 | |
refcocog | umd | pociąg | 42226 | 21899 |
refcocog | umd | wartość | 2573 | 1300 |
refcocog | umd | test | 5023 | 2600 |
Dodatkowa dokumentacja : Przeglądaj dokumenty z kodem na
Strona główna : https://github.com/lichengunc/refer
Kod źródłowy :
tfds.datasets.ref_coco.Builder
Wersje :
-
1.0.0
(domyślnie): Wersja początkowa.
-
Rozmiar pliku do pobrania :
Unknown size
Instrukcje ręcznego pobierania : ten zestaw danych wymaga ręcznego pobrania danych źródłowych do katalogu
download_config.manual_dir
(domyślnie~/tensorflow_datasets/downloads/manual/
):Postępuj zgodnie z instrukcjami w https://github.com/lichengunc/refer i pobierz adnotacje oraz obrazy pasujące do katalogu data/ określonego w repozytorium.
Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi , aby pobrać pycocotools i plik adnotacji instances_train2014 z https://cocodataset.org/#download
Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojej PYTHONPATH.
Uruchom manual_download_process.py, aby wygenerować plik refcoco.json, zastępując
ref_data_root
,coco_annotations_file
iout_file
wartościami odpowiadającymi miejscu, w którym pobrałeś/chcesz zapisać te pliki. Zauważ, że manual_download_process.py można znaleźć w repozytorium TFDS.Pobierz zestaw szkoleniowy COCO z https://cocodataset.org/#download i umieść go w folderze o nazwie
coco_train2014/
. Przenieśrefcoco.json
na ten sam poziom cococo_train2014
.Postępuj zgodnie ze standardowymi ręcznymi instrukcjami pobierania.
Automatyczne buforowanie ( dokumentacja ): Nie
Struktura funkcji :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- Dokumentacja funkcji :
Funkcja | Klasa | Kształtować się | Typ D | Opis |
---|---|---|---|---|
FunkcjeDict | ||||
coco_adnotacje | Sekwencja | |||
coco_adnotations/obszar | Napinacz | int64 | ||
coco_annotations/bbox | Funkcja BBox | (4,) | pływak32 | |
coco_adnotations/id | Napinacz | int64 | ||
coco_adnotacje/etykieta | Napinacz | int64 | ||
obraz | Obraz | (Brak, Brak, 3) | uint8 | |
obraz/identyfikator | Napinacz | int64 | ||
obiekty | Sekwencja | |||
obiekty/obszar | Napinacz | int64 | ||
obiekty/bbox | Funkcja BBox | (4,) | pływak32 | |
obiekty/gt_box_index | Napinacz | int64 | ||
obiekty/identyfikator | Napinacz | int64 | ||
obiekty/etykieta | Napinacz | int64 | ||
obiekty/odzw | Sekwencja | |||
obiekty/refexp/raw | Tekst | strunowy | ||
obiekty/refexp/refexp_id | Napinacz | int64 |
Klucze nadzorowane (Zobacz dokument
as_supervised
):None
Cytat :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (domyślna konfiguracja)
Rozmiar zestawu danych :
3.24 GiB
Podziały :
Podział | Przykłady |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 994 |
'validation' | 1500 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcoco_google
Rozmiar zestawu danych :
4.60 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 4527 |
'train' | 19213 |
'validation' | 4559 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
Rozmiar zestawu danych :
3.24 GiB
Podziały :
Podział | Przykłady |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16 992 |
'validation' | 1500 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcocog_google
Rozmiar zestawu danych :
4.59 GiB
Podziały :
Podział | Przykłady |
---|---|
'train' | 24698 |
'validation' | 4650 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):
ref_coco/refcocog_umd
Rozmiar zestawu danych :
4.04 GiB
Podziały :
Podział | Przykłady |
---|---|
'test' | 2600 |
'train' | 21 899 |
'validation' | 1300 |
- Rysunek ( tfds.show_examples ):
- Przykłady ( tfds.as_dataframe ):