ref_coco

  • คำอธิบาย :

ชุดข้อมูลนิพจน์อ้างอิง 3 ชุดโดยอิงจากรูปภาพในชุดข้อมูล COCO นิพจน์อ้างอิงคือข้อความชิ้นหนึ่งที่อธิบายวัตถุที่ไม่ซ้ำใครในรูปภาพ ชุดข้อมูลเหล่านี้รวบรวมโดยขอให้ผู้ประเมินที่เป็นมนุษย์แยกแยะวัตถุที่ถูกกำหนดโดยกรอบขอบในชุดข้อมูล COCO

RefCoco และ RefCoco+ มาจาก Kazemzadeh และคณะ 2014. นิพจน์ RefCoco+ เป็นคำอธิบายตามลักษณะที่ปรากฏอย่างเคร่งครัด ซึ่งบังคับใช้โดยการป้องกันไม่ให้ผู้ประเมินใช้คำอธิบายตามตำแหน่ง (เช่น "บุคคลที่อยู่ทางขวา" ไม่ใช่คำอธิบายที่ถูกต้องสำหรับ RefCoco+) RefCocoG มาจาก Mao และคณะ 2016 และมีคำอธิบายวัตถุที่หลากหลายมากกว่าเมื่อเทียบกับ RefCoco เนื่องจากความแตกต่างในกระบวนการใส่คำอธิบายประกอบ โดยเฉพาะอย่างยิ่ง RefCoco ถูกรวบรวมในการตั้งค่าแบบโต้ตอบเกม ในขณะที่ RefCocoG ถูกรวบรวมในการตั้งค่าที่ไม่โต้ตอบ โดยเฉลี่ย RefCocoG มี 8.4 คำต่อนิพจน์ ในขณะที่ RefCoco มี 3.5 คำ

ชุดข้อมูลแต่ละชุดมีการจัดสรรแยกที่แตกต่างกันซึ่งโดยปกติแล้วทั้งหมดจะรายงานในเอกสาร ชุด "testA" และ "testB" ใน RefCoco และ RefCoco+ มีเพียงบุคคลและไม่ใช่บุคคลเท่านั้นตามลำดับ รูปภาพจะถูกแบ่งออกเป็นส่วนต่างๆ ในการแยก "google" วัตถุ (ไม่ใช่รูปภาพ) จะถูกแบ่งพาร์ติชันระหว่างการแยกแบบรถไฟและแบบไม่ใช่แบบรถไฟ ซึ่งหมายความว่ารูปภาพเดียวกันสามารถปรากฏได้ทั้งใน Train และ Validation Split แต่ออบเจ็กต์ที่อ้างถึงในภาพจะแตกต่างกันระหว่างสองชุด ในทางตรงกันข้าม "unc" และ "umd" จะแยกอิมเมจพาร์ติชันระหว่างรถไฟ การตรวจสอบ และการแยกการทดสอบ ใน RefCocoG การแยก "google" ไม่มีชุดการทดสอบตามรูปแบบบัญญัติ และโดยทั่วไปชุดการตรวจสอบความถูกต้องจะถูกรายงานในเอกสารเป็น "val*"

สถิติสำหรับแต่ละชุดข้อมูลและการแยก ("refs" คือจำนวนนิพจน์ที่อ้างอิง และ "images" คือจำนวนรูปภาพ):

ชุดข้อมูล พาร์ติชัน แยก ผู้อ้างอิง ภาพ
เรฟโกโก Google รถไฟ 40000 19213
เรฟโกโก Google วาล 5,000 4559
เรฟโกโก Google ทดสอบ 5,000 4527
เรฟโกโก อู๋ รถไฟ 42404 16994
เรฟโกโก อู๋ วาล 3811 1500
เรฟโกโก อู๋ ทดสอบเอ 1975 750
เรฟโกโก อู๋ ทดสอบบี 1810 750
เรฟโกโก+ อู๋ รถไฟ 42278 16992
เรฟโกโก+ อู๋ วาล 3805 1500
เรฟโกโก+ อู๋ ทดสอบเอ 1975 750
เรฟโกโก+ อู๋ ทดสอบบี พ.ศ. 2341 750
รีโก้ค็อก Google รถไฟ 44822 24698
รีโก้ค็อก Google วาล 5,000 4650
รีโก้ค็อก อืม รถไฟ 42226 21899
รีโก้ค็อก อืม วาล 2573 1300
รีโก้ค็อก อืม ทดสอบ 5023 2600
  • เอกสารเพิ่มเติม : สำรวจในเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/lichengunc/refer

  • ซอร์สโค้ด : tfds.datasets.ref_coco.Builder

  • รุ่น :

    • 1.0.0 : การเปิดตัวครั้งแรก
    • 1.1.0 (ค่าเริ่มต้น) : เพิ่มมาสก์
  • ขนาดการดาวน์โหลด : Unknown size

  • คำแนะนำการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้ต้องการให้คุณดาวน์โหลดข้อมูลต้นฉบับด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):

  • ทำตามคำแนะนำใน https://github.com/lichengunc/refer และดาวน์โหลดคำอธิบายประกอบและรูปภาพ ซึ่งตรงกับไดเร็กทอรี data/ ที่ระบุใน repo

  1. ทำตามคำแนะนำของ PythonAPI ใน https://github.com/cocodataset/cocoapi เพื่อรับ pycocotools และไฟล์คำอธิบายประกอบ instances_train2014 จาก https://cocodataset.org/#download

  2. เพิ่มทั้ง Reference.py จาก (1) และ pycocotools จาก (2) ไปยัง PYTHONPATH ของคุณ

  3. รัน manual_download_process.py เพื่อสร้าง refcoco.json โดยแทนที่ ref_data_root , coco_annotations_file และ out_file ด้วยค่าที่สอดคล้องกับตำแหน่งที่คุณดาวน์โหลด / ต้องการบันทึกไฟล์เหล่านี้ โปรดทราบว่า manual_download_process.py สามารถพบได้ในพื้นที่เก็บข้อมูล TFDS

  4. ดาวน์โหลดชุดการฝึกอบรม COCO จาก https://cocodataset.org/#download และติดไว้ในโฟลเดอร์ชื่อ coco_train2014/ ย้าย refcoco.json ไปที่ระดับเดียวกับ coco_train2014

  5. ปฏิบัติตามคำแนะนำการดาวน์โหลดด้วยตนเองมาตรฐาน

  • แคชอัตโนมัติ ( เอกสาร ): No

  • โครงสร้างคุณสมบัติ :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง ประเภทD คำอธิบาย
คุณสมบัติDict
coco_annotations ลำดับ
coco_annotations/พื้นที่ เทนเซอร์ int64
coco_annotations/bbox คุณสมบัติ BBox (4,) ลอย32
coco_annotations/id เทนเซอร์ int64
coco_annotations/ฉลาก เทนเซอร์ int64
ภาพ ภาพ (ไม่มี ไม่มี 3) uint8
รูปภาพ/รหัส เทนเซอร์ int64
วัตถุ ลำดับ
วัตถุ/พื้นที่ เทนเซอร์ int64
วัตถุ/bbox คุณสมบัติ BBox (4,) ลอย32
วัตถุ/gt_box_index เทนเซอร์ int64
วัตถุ/รหัส เทนเซอร์ int64
วัตถุ/ฉลาก เทนเซอร์ int64
วัตถุ/หน้ากาก ภาพ (ไม่มี ไม่มี 3) uint8
วัตถุ/การอ้างอิง ลำดับ
วัตถุ / refexp / raw ข้อความ เชือก
วัตถุ/refexp/refexp_id เทนเซอร์ int64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • ตัวอย่าง ( tfds.as_dataframe ): หายไป

  • การอ้างอิง :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 3.29 GiB

  • แยก :

แยก ตัวอย่าง
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

การแสดงภาพ

ref_coco/refcoco_google

  • ขนาดชุดข้อมูล : 4.65 GiB

  • แยก :

แยก ตัวอย่าง
'test' 4,527
'train' 19,213
'validation' 4,559

การแสดงภาพ

ref_coco/refcocoplus_unc

  • ขนาดชุดข้อมูล : 3.29 GiB

  • แยก :

แยก ตัวอย่าง
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

การแสดงภาพ

ref_coco/refcocog_google

  • ขนาดชุดข้อมูล : 4.64 GiB

  • แยก :

แยก ตัวอย่าง
'train' 24,698
'validation' 4,650

การแสดงภาพ

ref_coco/refcocog_umd

  • ขนาดชุดข้อมูล : 4.08 GiB

  • แยก :

แยก ตัวอย่าง
'test' 2,600
'train' 21,899
'validation' 1,300

การแสดงภาพ