coco_captions

COCO เป็นชุดข้อมูลการตรวจจับวัตถุขนาดใหญ่ การแบ่งกลุ่ม และคำอธิบายภาพ รุ่นนี้มีรูปภาพ กรอบป้าย ป้ายกำกับ และคำบรรยายจาก COCO 2014 ซึ่งแบ่งออกเป็นชุดย่อยที่กำหนดโดย Karpathy และ Li (2015) วิธีนี้จะแบ่งข้อมูลการตรวจสอบความถูกต้องของ COCO 2014 ดั้งเดิมออกเป็นชุดการตรวจสอบและทดสอบรูปภาพ 5,000 ภาพใหม่ รวมถึงชุด "restval" ที่มีรูปภาพประมาณ 30,000 รูปที่เหลือ การแยกทั้งหมดมีคำอธิบายประกอบคำบรรยาย

แยก ตัวอย่าง
'restval' 30,504
'test' 5,000
'train' 82,783
'val' 5,000
  • โครงสร้างคุณลักษณะ :
FeaturesDict({
    'captions': Sequence({
        'id': int64,
        'text': string,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/filename': Text(shape=(), dtype=string),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'is_crowd': bool,
        'label': ClassLabel(shape=(), dtype=int64, num_classes=80),
    }),
})
  • เอกสารคุณสมบัติ :
ลักษณะเฉพาะ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
คำอธิบายภาพ ลำดับ
คำบรรยาย/id เทนเซอร์ int64
คำบรรยาย/ข้อความ เทนเซอร์ สตริง
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
รูปภาพ/ชื่อไฟล์ ข้อความ สตริง
รูปภาพ/รหัส เทนเซอร์ int64
วัตถุ ลำดับ
วัตถุ/พื้นที่ เทนเซอร์ int64
วัตถุ/bbox คุณสมบัติ BBox (4,) ลอย32
วัตถุ/รหัส เทนเซอร์ int64
วัตถุ/is_crowd เทนเซอร์ บูล
วัตถุ/ฉลาก ป้ายกำกับคลาส int64

การสร้างภาพ

  • การอ้างอิง :
@article{DBLP:journals/corr/LinMBHPRDZ14,
  author    = {Tsung{-}Yi Lin and
               Michael Maire and
               Serge J. Belongie and
               Lubomir D. Bourdev and
               Ross B. Girshick and
               James Hays and
               Pietro Perona and
               Deva Ramanan and
               Piotr Doll{'{a} }r and
               C. Lawrence Zitnick},
  title     = {Microsoft {COCO:} Common Objects in Context},
  journal   = {CoRR},
  volume    = {abs/1405.0312},
  year      = {2014},
  url       = {http://arxiv.org/abs/1405.0312},
  archivePrefix = {arXiv},
  eprint    = {1405.0312},
  timestamp = {Mon, 13 Aug 2018 16:48:13 +0200},
  biburl    = {https://dblp.org/rec/bib/journals/corr/LinMBHPRDZ14},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}@inproceedings{DBLP:conf/cvpr/KarpathyL15,
  author    = {Andrej Karpathy and
               Fei{-}Fei Li},
  title     = {Deep visual-semantic alignments for generating image
               descriptions},
  booktitle = { {IEEE} Conference on Computer Vision and Pattern Recognition,
               {CVPR} 2015, Boston, MA, USA, June 7-12, 2015},
  pages     = {3128--3137},
  publisher = { {IEEE} Computer Society},
  year      = {2015},
  url       = {https://doi.org/10.1109/CVPR.2015.7298932},
  doi       = {10.1109/CVPR.2015.7298932},
  timestamp = {Wed, 16 Oct 2019 14:14:50 +0200},
  biburl    = {https://dblp.org/rec/conf/cvpr/KarpathyL15.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

coco_captions/2014 (ค่าเริ่มต้น)