gref

Mô tả :

Bộ dữ liệu Google RefExp là tập hợp các mô tả văn bản của các đối tượng trong hình ảnh được xây dựng trên bộ dữ liệu MS-COCO có sẵn công khai. Trong khi chú thích hình ảnh trong MS-COCO áp dụng cho toàn bộ hình ảnh, bộ dữ liệu này tập trung vào mô tả văn bản cho phép một người xác định duy nhất một đối tượng hoặc vùng trong hình ảnh. Xem thêm chi tiết trong bài viết này: Tạo và hiểu các mô tả đối tượng rõ ràng.

Tài liệu bổ sung : Khám phá trên giấy tờ với mã
Trang chủ : https://github.com/mjhucla/Google_Refexp_toolbox
Mã nguồn : tfds.vision_language.gref.Gref
Phiên bản :
- 1.0.0 (mặc định): Bản phát hành đầu tiên.
Kích thước tải xuống : Unknown size
Kích thước tập dữ liệu : 4.60 GiB
Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
Làm theo hướng dẫn tại https://github.com/mjhucla/Google_Refexp_toolbox để tải xuống và xử lý trước dữ liệu thành định dạng phù hợp với COCO. Thư mục chứa 2 tệp và một thư mục:
google_refexp_train_201511_coco_aligned_catg.json
google_refexp_val_201511_coco_aligned_catg.json
coco_train2014/

Thư mục coco_train2014 chứa tất cả các hình ảnh đào tạo COCO 2014.

Tự động lưu vào bộ nhớ cache ( tài liệu ): Không
Chia tách :

Tách ra	ví dụ
`'train'`	24,698
`'validation'`	4.650

Cấu trúc tính năng :

FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})

Tài liệu tính năng :

Tính năng	Lớp	Hình dạng	Dtype
	Tính năngDict
hình ảnh	Hình ảnh	(Không, Không có, 3)	uint8
hình ảnh/id	tenxơ		int64
các đối tượng	Sự phối hợp
đồ vật/khu vực	tenxơ		int64
đối tượng/bbox	Tính năng BBox	(4,)	phao32
đối tượng/id	tenxơ		int64
đối tượng/nhãn	tenxơ		int64
đối tượng/tên_nhãn	LớpNhãn		int64
đối tượng/refexp	Sự phối hợp
đối tượng/refexp/thô	Chữ		sợi dây
đối tượng/refexp/tham chiếu	Chữ		sợi dây
đối tượng/refexp/refexp_id	tenxơ		int64
đối tượng/refexp/mã thông báo	Trình tự (Văn bản)	(Không có,)	sợi dây

Các khóa được giám sát (Xem as_supervised doc ): None
Hình ( tfds.show_examples ):

Hình dung

Ví dụ ( tfds.as_dataframe ):

trích dẫn :

@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}

gref Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.

gref