Pomoc chronić Wielkiej Rafy Koralowej z TensorFlow na Kaggle Dołącz Wyzwanie

ref_coco

  • opis:

Zbiór 3 zestawów danych wyrażeń odsyłających opartych na obrazach w zestawie danych COCO. Wyrażenie odsyłające to fragment tekstu opisujący unikalny obiekt na obrazie. Te zestawy danych są gromadzone, prosząc osoby oceniające o ujednoznacznienie obiektów wyznaczonych przez ramki ograniczające w zestawie danych COCO.

RefCoco i RefCoco+ pochodzą od Kazemzadeh et al. 2014. Wyrażenia RefCoco+ są opisami ściśle opartymi na wyglądzie, które wymuszali, uniemożliwiając oceniającym korzystanie z opisów opartych na lokalizacji (np. „osoba po prawej” nie jest prawidłowym opisem dla RefCoco+). RefCocoG pochodzi od Mao et al. 2016 i ma bogatszy opis obiektów w porównaniu do RefCoco ze względu na różnice w procesie adnotacji. W szczególności RefCoco zostało zebrane w interaktywnym środowisku opartym na grze, podczas gdy RefCocoG zostało zebrane w nieinteraktywnym otoczeniu. RefCocoG zawiera średnio 8,4 słowa na wyrażenie, podczas gdy RefCoco ma 3,5 słowa.

Każdy zestaw danych ma różne podziały alokacji, które zazwyczaj są zgłaszane w dokumentach. Zestawy "testA" i "testB" w RefCoco i RefCoco+ zawierają odpowiednio tylko osoby i tylko nie-ludzie. Obrazy są podzielone na różne podziały. W podziale „google” obiekty, a nie obrazy, są dzielone między podziały kolejowe i inne. Oznacza to, że ten sam obraz może pojawić się zarówno w podziale pociągu, jak i walidacji, ale obiekty, do których odwołuje się obraz, będą się różnić w obu zestawach. W przeciwieństwie do tego, "unc" i "umd" dzielą obrazy partycji między pociąg, walidację i podział testowy. W RefCocoG podział „google” nie ma kanonicznego zestawu testowego, a zestaw walidacyjny jest zwykle zgłaszany w artykułach jako „val*”.

Statystyki dla każdego zbioru danych i podziału („refs” to liczba odsyłających wyrażeń, a „images” to liczba obrazów):

zbiór danych przegroda podział ref obrazy
refcoco Google pociąg 40000 19213
refcoco Google wartość 5000 4559
refcoco Google test 5000 4527
refcoco wuj pociąg 42404 16994
refcoco wuj wartość 3811 1500
refcoco wuj testA 1975 750
refcoco wuj testB 1810 750
refcoco+ wuj pociąg 42278 16992
refcoco+ wuj wartość 3805 1500
refcoco+ wuj testA 1975 750
refcoco+ wuj testB 1798 750
refcocog Google pociąg 44822 24698
refcocog Google wartość 5000 4650
refcocog umd pociąg 42226 21899
refcocog umd wartość 2573 1300
refcocog umd test 5023 2600
  1. Postępuj zgodnie z instrukcjami PythonAPI w https://github.com/cocodataset/cocoapi dostać pycocotools i adnotacje instances_train2014 plik z https://cocodataset.org/#download

  2. Dodaj zarówno refer.py z (1), jak i pycocotools z (2) do swojego PYTHONPATH.

  3. Uruchom manual_download_process.py wygenerować refcoco.json, zastępując ref_data_root , coco_annotations_file i out_file z wartości odpowiadającej gdzie pobrałeś / chcą, aby zapisać te pliki. Zauważ, że manual_download_process.py można znaleźć w repozytorium TFDS.

  4. Pobierz COCO zestaw treningowy z https://cocodataset.org/#download i trzymać je w folderze o nazwie coco_train2014/ . Przenieś refcoco.json na tym samym poziomie co coco_train2014 .

  5. Postępuj zgodnie ze standardowymi instrukcjami ręcznego pobierania.

FeaturesDict({
    'coco_annotations': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'id': tf.int64,
        'label': tf.int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/id': tf.int64,
    'objects': Sequence({
        'area': tf.int64,
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'gt_box_index': tf.int64,
        'id': tf.int64,
        'label': tf.int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=tf.string),
            'refexp_id': tf.int64,
        }),
    }),
})
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (konfiguracja domyślna)

  • Zbiór danych rozmiar: 3.24 GiB

  • dzieli:

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 994
'validation' 1500

Wyobrażanie sobie

ref_coco/refcoco_google

  • Zbiór danych rozmiar: 4.60 GiB

  • dzieli:

Podział Przykłady
'test' 4527
'train' 19 213
'validation' 4559

Wyobrażanie sobie

ref_coco/refcocoplus_unc

  • Zbiór danych rozmiar: 3.24 GiB

  • dzieli:

Podział Przykłady
'testA' 750
'testB' 750
'train' 16 992
'validation' 1500

Wyobrażanie sobie

ref_coco/refcocog_google

  • Zbiór danych rozmiar: 4.59 GiB

  • dzieli:

Podział Przykłady
'train' 24 698
'validation' 4650

Wyobrażanie sobie

ref_coco/refcocog_umd

  • Zestaw danych rozmiar: 4.04 GiB

  • dzieli:

Podział Przykłady
'test' 2600
'train' 21,899
'validation' 1300

Wyobrażanie sobie