ref_coco

  • Sự miêu tả :

Bộ sưu tập gồm 3 bộ dữ liệu biểu thức tham chiếu dựa trên hình ảnh trong bộ dữ liệu COCO. Biểu thức giới thiệu là một đoạn văn bản mô tả một đối tượng duy nhất trong một hình ảnh. Các tập dữ liệu này được thu thập bằng cách yêu cầu người đánh giá phân biệt các đối tượng được mô tả bằng các hộp giới hạn trong tập dữ liệu COCO.

RefCoco và RefCoco+ là của Kazemzadeh et al. 2014. Biểu thức RefCoco+ hoàn toàn là các mô tả dựa trên ngoại hình, được thực thi bằng cách ngăn người xếp loại sử dụng mô tả dựa trên vị trí (ví dụ: "người bên phải" không phải là mô tả hợp lệ cho RefCoco+). RefCocoG là từ Mao và cộng sự. 2016 và có mô tả đối tượng phong phú hơn so với RefCoco do sự khác biệt trong quy trình chú thích. Cụ thể, RefCoco được thu thập trong cài đặt dựa trên trò chơi tương tác, trong khi RefCocoG được thu thập trong cài đặt không tương tác. Trung bình, RefCocoG có 8,4 từ cho mỗi biểu thức trong khi RefCoco có 3,5 từ.

Mỗi tập dữ liệu có các phân bổ phân chia khác nhau thường được báo cáo trong các bài báo. Bộ "testA" và "testB" trong RefCoco và RefCoco+ lần lượt chỉ chứa người và không phải người. Hình ảnh được phân chia thành nhiều phần khác nhau. Trong phần phân chia "google", các đối tượng, không phải hình ảnh, được phân vùng giữa phần tách đoàn tàu và không phải đoàn tàu. Điều này có nghĩa là cùng một hình ảnh có thể xuất hiện trong cả phần tách đoàn tàu và phần xác thực, nhưng các đối tượng được đề cập đến trong hình ảnh sẽ khác nhau giữa hai bộ. Ngược lại, "unc" và "umd" phân chia hình ảnh phân vùng giữa phân tách tàu, xác thực và phân tách kiểm tra. Trong RefCocoG, phần phân tách "google" không có bộ kiểm tra chuẩn và bộ xác thực thường được báo cáo trong các bài báo là "val*".

Số liệu thống kê cho từng tập dữ liệu và phần tách ("refs" là số lượng biểu thức giới thiệu và "hình ảnh" là số lượng hình ảnh):

tập dữ liệu vách ngăn tách ra giới thiệu hình ảnh
dừa tươi Google xe lửa 40000 19213
dừa tươi Google giá trị 5000 4559
dừa tươi Google Bài kiểm tra 5000 4527
dừa tươi chú xe lửa 42404 16994
dừa tươi chú giá trị 3811 1500
dừa tươi chú kiểm traA 1975 750
dừa tươi chú kiểm traB 1810 750
refcoco+ chú xe lửa 42278 16992
refcoco+ chú giá trị 3805 1500
refcoco+ chú kiểm traA 1975 750
refcoco+ chú kiểm traB 1798 750
refcocog Google xe lửa 44822 24698
refcocog Google giá trị 5000 4650
refcocog ừm xe lửa 42226 21899
refcocog ừm giá trị 2573 1300
refcocog ừm Bài kiểm tra 5023 2600
  • Tài liệu bổ sung : Khám phá trên giấy tờ có mã

  • Trang chủ : https://github.com/lichengunc/refer

  • Mã nguồn : tfds.datasets.ref_coco.Builder

  • Phiên bản :

    • 1.0.0 : Bản phát hành đầu tiên.
    • 1.1.0 (mặc định) : Đã thêm mặt nạ.
  • Kích thước tải xuống : Unknown size

  • Hướng dẫn tải xuống thủ công : Tập dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):

  • Làm theo hướng dẫn trong https://github.com/lichengunc/refer và tải xuống các chú thích cũng như hình ảnh, khớp với thư mục data/ được chỉ định trong repo.

  1. Làm theo hướng dẫn của PythonAPI trong https://github.com/cocodataset/cocoapi để lấy pycocotools và tệp chú thích instance_train2014 từ https://cocodataset.org/#download

  2. Thêm cả reference.py từ (1) và pycocotools từ (2) vào PYTHONPATH của bạn.

  3. Chạy manual_download_process.py để tạo refcoco.json, thay thế ref_data_root , coco_annotations_fileout_file bằng các giá trị tương ứng với nơi bạn đã tải xuống/muốn lưu các tệp này. Lưu ý rằng manual_download_process.py có thể được tìm thấy trong kho lưu trữ TFDS.

  4. Tải xuống bộ huấn luyện COCO từ https://cocodataset.org/#download và dán nó vào thư mục có tên coco_train2014/ . Di chuyển refcoco.json đến cùng cấp độ với coco_train2014 .

  5. Thực hiện theo các hướng dẫn tải xuống thủ công tiêu chuẩn.

  • Tự động lưu vào bộ nhớ đệm ( tài liệu ): Không

  • Cấu trúc tính năng :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
coco_annotations Sự liên tiếp
coco_annotations/khu vực Tenxơ int64
coco_annotations/bbox Tính năng BBox (4,) phao32
coco_annotations/id Tenxơ int64
coco_annotations/nhãn Tenxơ int64
hình ảnh Hình ảnh (Không, Không, 3) uint8
hình ảnh/id Tenxơ int64
các đối tượng Sự liên tiếp
đồ vật/khu vực Tenxơ int64
đối tượng/hộp Tính năng BBox (4,) phao32
đối tượng/gt_box_index Tenxơ int64
đối tượng/id Tenxơ int64
đồ vật/nhãn Tenxơ int64
đồ vật/mặt nạ Hình ảnh (Không, Không, 3) uint8
đối tượng/refexp Sự liên tiếp
đối tượng/refexp/thô Chữ sợi dây
đối tượng/refexp/refexp_id Tenxơ int64
@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (cấu hình mặc định)

  • Kích thước tập dữ liệu : 3.29 GiB

  • Chia tách :

Tách ra Ví dụ
'testA' 750
'testB' 750
'train' 16.994
'validation' 1.500

Hình dung

ref_coco/refcoco_google

  • Kích thước tập dữ liệu : 4.65 GiB

  • Chia tách :

Tách ra Ví dụ
'test' 4.527
'train' 19.213
'validation' 4,559

Hình dung

ref_coco/refcocoplus_unc

  • Kích thước tập dữ liệu : 3.29 GiB

  • Chia tách :

Tách ra Ví dụ
'testA' 750
'testB' 750
'train' 16.992
'validation' 1.500

Hình dung

ref_coco/refcocog_google

  • Kích thước tập dữ liệu : 4.64 GiB

  • Chia tách :

Tách ra Ví dụ
'train' 24.698
'validation' 4.650

Hình dung

ref_coco/refcocog_umd

  • Kích thước tập dữ liệu : 4.08 GiB

  • Chia tách :

Tách ra Ví dụ
'test' 2.600
'train' 21.899
'validation' 1.300

Hình dung