TFDS รองรับ รูปแบบ Croissant 🥐 แล้ว! อ่าน เอกสาร เพื่อทราบข้อมูลเพิ่มเติม

หน้านี้ได้รับการแปลโดย Cloud Translation API

ref_coco

คำอธิบาย :

ชุดข้อมูลนิพจน์อ้างอิง 3 ชุดโดยอิงจากรูปภาพในชุดข้อมูล COCO นิพจน์อ้างอิงคือข้อความชิ้นหนึ่งที่อธิบายวัตถุที่ไม่ซ้ำใครในรูปภาพ ชุดข้อมูลเหล่านี้รวบรวมโดยขอให้ผู้ประเมินที่เป็นมนุษย์แยกแยะวัตถุที่ถูกกำหนดโดยกรอบขอบในชุดข้อมูล COCO

RefCoco และ RefCoco+ มาจาก Kazemzadeh และคณะ 2014. นิพจน์ RefCoco+ เป็นคำอธิบายตามลักษณะที่ปรากฏอย่างเคร่งครัด ซึ่งบังคับใช้โดยการป้องกันไม่ให้ผู้ประเมินใช้คำอธิบายตามตำแหน่ง (เช่น "บุคคลที่อยู่ทางขวา" ไม่ใช่คำอธิบายที่ถูกต้องสำหรับ RefCoco+) RefCocoG มาจาก Mao และคณะ 2016 และมีคำอธิบายวัตถุที่หลากหลายมากกว่าเมื่อเทียบกับ RefCoco เนื่องจากความแตกต่างในกระบวนการใส่คำอธิบายประกอบ โดยเฉพาะอย่างยิ่ง RefCoco ถูกรวบรวมในการตั้งค่าแบบโต้ตอบเกม ในขณะที่ RefCocoG ถูกรวบรวมในการตั้งค่าที่ไม่โต้ตอบ โดยเฉลี่ย RefCocoG มี 8.4 คำต่อนิพจน์ ในขณะที่ RefCoco มี 3.5 คำ

ชุดข้อมูลแต่ละชุดมีการจัดสรรแยกที่แตกต่างกันซึ่งโดยปกติแล้วทั้งหมดจะรายงานในเอกสาร ชุด "testA" และ "testB" ใน RefCoco และ RefCoco+ มีเพียงบุคคลและไม่ใช่บุคคลเท่านั้นตามลำดับ รูปภาพจะถูกแบ่งออกเป็นส่วนต่างๆ ในการแยก "google" วัตถุ (ไม่ใช่รูปภาพ) จะถูกแบ่งพาร์ติชันระหว่างการแยกแบบรถไฟและแบบไม่ใช่แบบรถไฟ ซึ่งหมายความว่ารูปภาพเดียวกันสามารถปรากฏได้ทั้งใน Train และ Validation Split แต่ออบเจ็กต์ที่อ้างถึงในภาพจะแตกต่างกันระหว่างสองชุด ในทางตรงกันข้าม "unc" และ "umd" จะแยกอิมเมจพาร์ติชันระหว่างรถไฟ การตรวจสอบ และการแยกการทดสอบ ใน RefCocoG การแยก "google" ไม่มีชุดการทดสอบตามรูปแบบบัญญัติ และโดยทั่วไปชุดการตรวจสอบความถูกต้องจะถูกรายงานในเอกสารเป็น "val*"

สถิติสำหรับแต่ละชุดข้อมูลและการแยก ("refs" คือจำนวนนิพจน์ที่อ้างอิง และ "images" คือจำนวนรูปภาพ):

ชุดข้อมูล	พาร์ติชัน	แยก	ผู้อ้างอิง	ภาพ
เรฟโกโก	Google	รถไฟ	40000	19213
เรฟโกโก	Google	วาล	5,000	4559
เรฟโกโก	Google	ทดสอบ	5,000	4527
เรฟโกโก	อู๋	รถไฟ	42404	16994
เรฟโกโก	อู๋	วาล	3811	1500
เรฟโกโก	อู๋	ทดสอบเอ	1975	750
เรฟโกโก	อู๋	ทดสอบบี	1810	750
เรฟโกโก+	อู๋	รถไฟ	42278	16992
เรฟโกโก+	อู๋	วาล	3805	1500
เรฟโกโก+	อู๋	ทดสอบเอ	1975	750
เรฟโกโก+	อู๋	ทดสอบบี	พ.ศ. 2341	750
รีโก้ค็อก	Google	รถไฟ	44822	24698
รีโก้ค็อก	Google	วาล	5,000	4650
รีโก้ค็อก	อืม	รถไฟ	42226	21899
รีโก้ค็อก	อืม	วาล	2573	1300
รีโก้ค็อก	อืม	ทดสอบ	5023	2600

เอกสารประกอบเพิ่มเติม : สำรวจในเอกสารด้วยรหัส
หน้าแรก : https://github.com/lichengunc/refer
ซอร์สโค้ด : tfds.datasets.ref_coco.Builder
รุ่น :
- 1.0.0 : การเปิดตัวครั้งแรก
- 1.1.0 (ค่าเริ่มต้น): เพิ่มมาสก์
ขนาดการดาวน์โหลด : Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้ต้องการให้คุณดาวน์โหลดข้อมูลต้นฉบับด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):
ทำตามคำแนะนำใน https://github.com/lichengunc/refer และดาวน์โหลดคำอธิบายประกอบและรูปภาพ ซึ่งตรงกับไดเร็กทอรี data/ ที่ระบุใน repo

ทำตามคำแนะนำของ PythonAPI ใน https://github.com/cocodataset/cocoapi เพื่อรับ pycocotools และไฟล์คำอธิบายประกอบ instances_train2014 จาก https://cocodataset.org/#download
เพิ่มทั้ง Reference.py จาก (1) และ pycocotools จาก (2) ไปยัง PYTHONPATH ของคุณ
รัน manual_download_process.py เพื่อสร้าง refcoco.json โดยแทนที่ ref_data_root , coco_annotations_file และ out_file ด้วยค่าที่สอดคล้องกับตำแหน่งที่คุณดาวน์โหลด / ต้องการบันทึกไฟล์เหล่านี้ โปรดทราบว่า manual_download_process.py สามารถพบได้ในพื้นที่เก็บข้อมูล TFDS
ดาวน์โหลดชุดการฝึกอบรม COCO จาก https://cocodataset.org/#download และติดไว้ในโฟลเดอร์ชื่อ coco_train2014/ ย้าย refcoco.json ไปที่ระดับเดียวกับ coco_train2014
ปฏิบัติตามคำแนะนำการดาวน์โหลดด้วยตนเองมาตรฐาน

แคชอัตโนมัติ ( เอกสาร ): No
โครงสร้างคุณสมบัติ :

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'mask': Image(shape=(None, None, 3), dtype=uint8),
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})

เอกสารคุณสมบัติ :

คุณสมบัติ	ระดับ	รูปร่าง	ประเภทD
	คุณสมบัติDict
coco_annotations	ลำดับ
coco_annotations/พื้นที่	เทนเซอร์		int64
coco_annotations/bbox	คุณสมบัติ BBox	(4,)	ลอย32
coco_annotations/id	เทนเซอร์		int64
coco_annotations/ฉลาก	เทนเซอร์		int64
ภาพ	ภาพ	(ไม่มี ไม่มี 3)	uint8
รูปภาพ/รหัส	เทนเซอร์		int64
วัตถุ	ลำดับ
วัตถุ/พื้นที่	เทนเซอร์		int64
วัตถุ/bbox	คุณสมบัติ BBox	(4,)	ลอย32
วัตถุ/gt_box_index	เทนเซอร์		int64
วัตถุ/รหัส	เทนเซอร์		int64
วัตถุ/ฉลาก	เทนเซอร์		int64
วัตถุ/หน้ากาก	ภาพ	(ไม่มี ไม่มี 3)	uint8
วัตถุ/การอ้างอิง	ลำดับ
วัตถุ / refexp / raw	ข้อความ		เชือก
วัตถุ/refexp/refexp_id	เทนเซอร์		int64

คีย์ภายใต้การดูแล (ดู as_supervised doc ): None
การอ้างอิง :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (การกำหนดค่าเริ่มต้น)

ขนาดชุดข้อมูล : 3.29 GiB
แยก :

แยก	ตัวอย่าง
`'testA'`	750
`'testB'`	750
`'train'`	16,994
`'validation'`	1,500

รูป ( tfds.show_examples ):

การแสดงภาพ

ตัวอย่าง ( tfds.as_dataframe ):

ref_coco/refcoco_google

ขนาดชุดข้อมูล : 4.65 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	4,527
`'train'`	19,213
`'validation'`	4,559

รูป ( tfds.show_examples ):

การแสดงภาพ

ตัวอย่าง ( tfds.as_dataframe ):

ref_coco/refcocoplus_unc

ขนาดชุดข้อมูล : 3.29 GiB
แยก :

แยก	ตัวอย่าง
`'testA'`	750
`'testB'`	750
`'train'`	16,992
`'validation'`	1,500

รูป ( tfds.show_examples ):

การแสดงภาพ

ตัวอย่าง ( tfds.as_dataframe ):

ref_coco/refcocog_google

ขนาดชุดข้อมูล : 4.64 GiB
แยก :

แยก	ตัวอย่าง
`'train'`	24,698
`'validation'`	4,650

รูป ( tfds.show_examples ):

การแสดงภาพ

ตัวอย่าง ( tfds.as_dataframe ):

ref_coco/refcocog_umd

ขนาดชุดข้อมูล : 4.08 GiB
แยก :

แยก	ตัวอย่าง
`'test'`	2,600
`'train'`	21,899
`'validation'`	1,300

รูป ( tfds.show_examples ):

การแสดงภาพ

ตัวอย่าง ( tfds.as_dataframe ):