gref

  • Mô tả :

Bộ dữ liệu Google RefExp là tập hợp các mô tả văn bản của các đối tượng trong hình ảnh được xây dựng trên bộ dữ liệu MS-COCO có sẵn công khai. Trong khi chú thích hình ảnh trong MS-COCO áp dụng cho toàn bộ hình ảnh, bộ dữ liệu này tập trung vào mô tả văn bản cho phép một người xác định duy nhất một đối tượng hoặc vùng trong hình ảnh. Xem thêm chi tiết trong bài viết này: Tạo và hiểu các mô tả đối tượng rõ ràng.

  • Tài liệu bổ sung : Khám phá trên giấy tờ với mã

  • Trang chủ : https://github.com/mjhucla/Google_Refexp_toolbox

  • Mã nguồn : tfds.vision_language.gref.Gref

  • Phiên bản :

    • 1.0.0 (mặc định): Bản phát hành đầu tiên.
  • Kích thước tải xuống : Unknown size

  • Kích thước tập dữ liệu : 4.60 GiB

  • Hướng dẫn tải xuống thủ công : Bộ dữ liệu này yêu cầu bạn tải xuống dữ liệu nguồn theo cách thủ công vào download_config.manual_dir (mặc định là ~/tensorflow_datasets/downloads/manual/ ):
    Làm theo hướng dẫn tại https://github.com/mjhucla/Google_Refexp_toolbox để tải xuống và xử lý trước dữ liệu thành định dạng phù hợp với COCO. Thư mục chứa 2 tệp và một thư mục:

  • google_refexp_train_201511_coco_aligned_catg.json

  • google_refexp_val_201511_coco_aligned_catg.json

  • coco_train2014/

Thư mục coco_train2014 chứa tất cả các hình ảnh đào tạo COCO 2014.

  • Tự động lưu vào bộ nhớ cache ( tài liệu ): Không

  • Chia tách :

Tách ra ví dụ
'train' 24,698
'validation' 4.650
  • Cấu trúc tính năng :
FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
        'label_name': ClassLabel(shape=(), dtype=int64, num_classes=80),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'referent': Text(shape=(), dtype=string),
            'refexp_id': int64,
            'tokens': Sequence(Text(shape=(), dtype=string)),
        }),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp Hình dạng Dtype Sự mô tả
Tính năngDict
hình ảnh Hình ảnh (Không, Không có, 3) uint8
hình ảnh/id tenxơ int64
các đối tượng Sự phối hợp
đồ vật/khu vực tenxơ int64
đối tượng/bbox Tính năng BBox (4,) phao32
đối tượng/id tenxơ int64
đối tượng/nhãn tenxơ int64
đối tượng/tên_nhãn LớpNhãn int64
đối tượng/refexp Sự phối hợp
đối tượng/refexp/thô Chữ sợi dây
đối tượng/refexp/tham chiếu Chữ sợi dây
đối tượng/refexp/refexp_id tenxơ int64
đối tượng/refexp/mã thông báo Trình tự (Văn bản) (Không có,) sợi dây

Hình dung

  • trích dẫn :
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}