ref_coco

  • opis :

Zbiór 3 zestawów danych wyrażeń referencyjnych opartych na obrazach w zbiorze danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zestawy danych są zbierane poprzez poproszenie osób oceniających o ujednoznacznienie obiektów wyznaczonych przez obwiednie w zbiorze danych COCO.

RefCoco i RefCoco+ pochodzą od Kazemzadeh et al. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, które wymuszają, uniemożliwiając oceniającym używanie opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem RefCoco+). RefCocoG pochodzi od Mao i in. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności RefCoco zostało zebrane w środowisku opartym na interaktywnej grze, podczas gdy RefCocoG zostało zebrane w środowisku nieinteraktywnym. Średnio RefCocoG ma 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.

Każdy zestaw danych ma różne alokacje podziału, które są zwykle podawane w dokumentach. Zestawy „testA” i „testB” w RefCoco i RefCoco+ zawierają odpowiednio tylko ludzi i tylko nie-ludzi. Obrazy są podzielone na różne podziały. W podziale „google” obiekty, a nie obrazy, są dzielone między pociągi i inne niż pociągi. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odnosi się obraz, będą różne w obu zestawach. W przeciwieństwie do tego „unc” i „umd” dzielą obrazy partycji między pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testów, a zbiór sprawdzania poprawności jest zwykle podawany w artykułach jako „val*”.

Statystyki dla każdego zestawu danych i podziału („refs” to liczba wyrażeń odsyłających, a „images” to liczba obrazów):

zestaw danych przegroda podział ref zdjęcia
refkoko Google pociąg 40000 19213
refkoko Google wartość 5000 4559
refkoko Google test 5000 4527
refkoko wujek pociąg 42404 16994
refkoko wujek wartość 3811 1500
refkoko wujek testA 1975 750
refkoko wujek test B 1810 750
refcoco+ wujek pociąg 42278 16992
refcoco+ wujek wartość 3805 1500
refcoco+ wujek testA 1975 750
refcoco+ wujek test B 1798 750
refcocog Google pociąg 44822 24698
refcocog Google wartość 5000 4650
refcocog umd pociąg 42226 21899
refcocog umd wartość 2573 1300
refcocog umd test 5023 2600
  1. Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi , aby pobrać pycocotools i plik adnotacji instances_train2014 z https://cocodataset.org/#download

  2. Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojej PYTHONPATH.

  3. Uruchom manual_download_process.py, aby wygenerować plik refcoco.json, zastępując ref_data_root , coco_annotations_file i out_file wartościami odpowiadającymi miejscu, w którym pobrałeś/chcesz zapisać te pliki. Zauważ, że manual_download_process.py można znaleźć w repozytorium TFDS.

  4. Pobierz zestaw szkoleniowy COCO z https://cocodataset.org/#download i umieść go w folderze o nazwie coco_train2014/ . Przenieś refcoco.json na ten sam poziom co coco_train2014 .

  5. Postępuj zgodnie ze standardowymi ręcznymi instrukcjami pobierania.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Struktura funkcji :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
coco_adnotacje Sekwencja
coco_adnotations/obszar Napinacz int64
coco_annotations/bbox Funkcja BBox (4,) pływak32
coco_adnotations/id Napinacz int64
coco_adnotacje/etykieta Napinacz int64
obraz Obraz (Brak, Brak, 3) uint8
obraz/identyfikator Napinacz int64
obiekty Sekwencja
obiekty/obszar Napinacz int64
obiekty/bbox Funkcja BBox (4,) pływak32
obiekty/gt_box_index Napinacz int64
obiekty/identyfikator Napinacz int64
obiekty/etykieta Napinacz int64
obiekty/odzw Sekwencja
obiekty/refexp/raw Tekst strunowy
obiekty/refexp/refexp_id Napinacz int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (domyślna konfiguracja)

  • Rozmiar zestawu danych : 3.24 GiB

  • Podziały :

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 994
'validation' 1500

Wyobrażanie sobie

ref_coco/refcoco_google

  • Rozmiar zestawu danych : 4.60 GiB

  • Podziały :

Podział Przykłady
'test' 4527
'train' 19213
'validation' 4559

Wyobrażanie sobie

ref_coco/refcocoplus_unc

  • Rozmiar zestawu danych : 3.24 GiB

  • Podziały :

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 992
'validation' 1500

Wyobrażanie sobie

ref_coco/refcocog_google

  • Rozmiar zestawu danych : 4.59 GiB

  • Podziały :

Podział Przykłady
'train' 24698
'validation' 4650

Wyobrażanie sobie

ref_coco/refcocog_umd

  • Rozmiar zestawu danych : 4.04 GiB

  • Podziały :

Podział Przykłady
'test' 2600
'train' 21 899
'validation' 1300

Wyobrażanie sobie

,

  • opis :

Zbiór 3 zestawów danych wyrażeń referencyjnych opartych na obrazach w zbiorze danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zestawy danych są zbierane poprzez poproszenie osób oceniających o ujednoznacznienie obiektów wyznaczonych przez obwiednie w zbiorze danych COCO.

RefCoco i RefCoco+ pochodzą od Kazemzadeh et al. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, które wymuszają, uniemożliwiając oceniającym używanie opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem RefCoco+). RefCocoG pochodzi od Mao i in. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności RefCoco zostało zebrane w środowisku opartym na interaktywnej grze, podczas gdy RefCocoG zostało zebrane w środowisku nieinteraktywnym. Średnio RefCocoG ma 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.

Każdy zestaw danych ma różne alokacje podziału, które są zwykle podawane w dokumentach. Zestawy „testA” i „testB” w RefCoco i RefCoco+ zawierają odpowiednio tylko ludzi i tylko nie-ludzi. Obrazy są podzielone na różne podziały. W podziale „google” obiekty, a nie obrazy, są dzielone między pociągi i inne niż pociągi. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odnosi się obraz, będą różne w obu zestawach. W przeciwieństwie do tego „unc” i „umd” dzielą obrazy partycji między pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testów, a zbiór sprawdzania poprawności jest zwykle podawany w artykułach jako „val*”.

Statystyki dla każdego zestawu danych i podziału („refs” to liczba wyrażeń odsyłających, a „images” to liczba obrazów):

zestaw danych przegroda podział ref zdjęcia
refkoko Google pociąg 40000 19213
refkoko Google wartość 5000 4559
refkoko Google test 5000 4527
refkoko wujek pociąg 42404 16994
refkoko wujek wartość 3811 1500
refkoko wujek testA 1975 750
refkoko wujek test B 1810 750
refcoco+ wujek pociąg 42278 16992
refcoco+ wujek wartość 3805 1500
refcoco+ wujek testA 1975 750
refcoco+ wujek test B 1798 750
refcocog Google pociąg 44822 24698
refcocog Google wartość 5000 4650
refcocog umd pociąg 42226 21899
refcocog umd wartość 2573 1300
refcocog umd test 5023 2600
  1. Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi , aby pobrać pycocotools i plik adnotacji instances_train2014 z https://cocodataset.org/#download

  2. Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojej PYTHONPATH.

  3. Uruchom manual_download_process.py, aby wygenerować plik refcoco.json, zastępując ref_data_root , coco_annotations_file i out_file wartościami odpowiadającymi miejscu, w którym pobrałeś/chcesz zapisać te pliki. Zauważ, że manual_download_process.py można znaleźć w repozytorium TFDS.

  4. Pobierz zestaw szkoleniowy COCO z https://cocodataset.org/#download i umieść go w folderze o nazwie coco_train2014/ . Przenieś refcoco.json na ten sam poziom co coco_train2014 .

  5. Postępuj zgodnie ze standardowymi ręcznymi instrukcjami pobierania.

  • Automatyczne buforowanie ( dokumentacja ): Nie

  • Struktura funkcji :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Dokumentacja funkcji :
Funkcja Klasa Kształtować się Typ D Opis
FunkcjeDict
coco_adnotacje Sekwencja
coco_adnotations/obszar Napinacz int64
coco_annotations/bbox Funkcja BBox (4,) pływak32
coco_adnotations/id Napinacz int64
coco_adnotacje/etykieta Napinacz int64
obraz Obraz (Brak, Brak, 3) uint8
obraz/identyfikator Napinacz int64
obiekty Sekwencja
obiekty/obszar Napinacz int64
obiekty/bbox Funkcja BBox (4,) pływak32
obiekty/gt_box_index Napinacz int64
obiekty/identyfikator Napinacz int64
obiekty/etykieta Napinacz int64
obiekty/odzw Sekwencja
obiekty/refexp/raw Tekst strunowy
obiekty/refexp/refexp_id Napinacz int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (domyślna konfiguracja)

  • Rozmiar zestawu danych : 3.24 GiB

  • Podziały :

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 994
'validation' 1500

Wyobrażanie sobie

ref_coco/refcoco_google

  • Rozmiar zestawu danych : 4.60 GiB

  • Podziały :

Podział Przykłady
'test' 4527
'train' 19213
'validation' 4559

Wyobrażanie sobie

ref_coco/refcocoplus_unc

  • Rozmiar zestawu danych : 3.24 GiB

  • Podziały :

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 992
'validation' 1500

Wyobrażanie sobie

ref_coco/refcocog_google

  • Rozmiar zestawu danych : 4.59 GiB

  • Podziały :

Podział Przykłady
'train' 24698
'validation' 4650

Wyobrażanie sobie

ref_coco/refcocog_umd

  • Rozmiar zestawu danych : 4.04 GiB

  • Podziały :

Podział Przykłady
'test' 2600
'train' 21 899
'validation' 1300

Wyobrażanie sobie