- คำอธิบาย :
คอลเลกชันของชุดข้อมูลนิพจน์อ้างอิง 3 ชุดตามรูปภาพในชุดข้อมูล COCO นิพจน์อ้างอิงคือชิ้นส่วนของข้อความที่อธิบายวัตถุเฉพาะในรูปภาพ ชุดข้อมูลเหล่านี้รวบรวมโดยการขอให้ผู้ประเมินที่เป็นมนุษย์แยกแยะวัตถุที่วาดโดยกรอบขอบเขตในชุดข้อมูล COCO
RefCoco และ RefCoco+ มาจาก Kazemzadeh และคณะ 2014 การแสดงออกของ RefCoco+ เป็นคำอธิบายตามลักษณะที่ปรากฏอย่างเคร่งครัด ซึ่งบังคับใช้โดยป้องกันไม่ให้ผู้ประเมินใช้คำอธิบายตามสถานที่ (เช่น "คนทางขวา" ไม่ใช่คำอธิบายที่ถูกต้องสำหรับ RefCoco+) RefCocoG มาจาก Mao และคณะ 2016 และมีรายละเอียดของออบเจกต์ที่สมบูรณ์กว่าเมื่อเปรียบเทียบกับ RefCoco เนื่องจากความแตกต่างในกระบวนการใส่คำอธิบายประกอบ โดยเฉพาะอย่างยิ่ง RefCoco ถูกรวบรวมในการตั้งค่าเกมแบบโต้ตอบ ในขณะที่ RefCocoG ถูกรวบรวมในการตั้งค่าที่ไม่ใช่แบบโต้ตอบ โดยเฉลี่ยแล้ว RefCocoG มี 8.4 คำต่อนิพจน์ ในขณะที่ RefCoco มี 3.5 คำ
ชุดข้อมูลแต่ละชุดมีการแบ่งการจัดสรรที่แตกต่างกัน ซึ่งโดยทั่วไปแล้วรายงานทั้งหมดในเอกสาร ชุด "testA" และ "testB" ใน RefCoco และ RefCoco+ มีเฉพาะคนและคนเท่านั้นตามลำดับ ภาพจะถูกแบ่งออกเป็นส่วนๆ ในการแยก "google" วัตถุต่างๆ ไม่ใช่รูปภาพ จะถูกแบ่งระหว่างการแยกรถไฟและไม่ใช่รถไฟ ซึ่งหมายความว่าภาพเดียวกันสามารถปรากฏในทั้งรถไฟและการแยกการตรวจสอบ แต่วัตถุที่ถูกอ้างถึงในภาพจะแตกต่างกันระหว่างสองชุด ในทางตรงกันข้าม "unc" และ "umd" แยกอิมเมจพาร์ติชันระหว่างรถไฟ การตรวจสอบ และการแยกการทดสอบ ใน RefCocoG การแยก "google" ไม่มีชุดการทดสอบตามรูปแบบบัญญัติ และโดยทั่วไปชุดการตรวจสอบความถูกต้องจะรายงานในเอกสารเป็น "val*"
สถิติสำหรับแต่ละชุดข้อมูลและการแยก ("refs" คือจำนวนของนิพจน์อ้างอิง และ "images" คือจำนวนของรูปภาพ):
ชุดข้อมูล | พาร์ทิชัน | แยก | อ้างอิง | ภาพ |
---|---|---|---|---|
อ้างอิง | รถไฟ | 40000 | 19213 | |
อ้างอิง | วาล | 5,000 | 4559 | |
อ้างอิง | ทดสอบ | 5,000 | 4527 | |
อ้างอิง | ลุง | รถไฟ | 42404 | 16994 |
อ้างอิง | ลุง | วาล | 3811 | 1500 |
อ้างอิง | ลุง | ทดสอบ ก | 2518 | 750 |
อ้างอิง | ลุง | ทดสอบ ข | 1810 | 750 |
รีโคโค่+ | ลุง | รถไฟ | 42278 | 16992 |
รีโคโค่+ | ลุง | วาล | 3805 | 1500 |
รีโคโค่+ | ลุง | ทดสอบ ก | 2518 | 750 |
รีโคโค่+ | ลุง | ทดสอบ ข | 1798 | 750 |
รีโคค็อก | รถไฟ | 44822 | 24698 | |
รีโคค็อก | วาล | 5,000 | 4650 | |
รีโคค็อก | อืม | รถไฟ | 42226 | 21899 |
รีโคค็อก | อืม | วาล | 2573 | 1300 |
รีโคค็อก | อืม | ทดสอบ | 5023 | 2600 |
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/lichengunc/refer
รหัสที่มา :
tfds.datasets.ref_coco.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):ทำตามคำแนะนำใน https://github.com/lichengunc/refer และดาวน์โหลดคำอธิบายประกอบและรูปภาพ ให้ตรงกับไดเร็กทอรี data/ ที่ระบุใน repo
ทำตามคำแนะนำของ PythonAPI ใน https://github.com/cocodataset/cocoapi เพื่อรับ pycocotools และไฟล์คำอธิบายประกอบของ instances_train2014 จาก https://cocodataset.org/#download
เพิ่มทั้ง refer.py จาก (1) และ pycocotools จาก (2) ไปยัง PYTHONPATH ของคุณ
เรียกใช้ manual_download_process.py เพื่อสร้าง refcoco.json โดยแทนที่
ref_data_root
,coco_annotations_file
และout_file
ด้วยค่าที่สอดคล้องกับตำแหน่งที่คุณดาวน์โหลด / ต้องการบันทึกไฟล์เหล่านี้ โปรดทราบว่าสามารถพบ manual_download_process.py ในที่เก็บ TFDSดาวน์โหลดชุดฝึก COCO จาก https://cocodataset.org/#download แล้วนำไปใส่ในโฟลเดอร์ชื่อ
coco_train2014/
ย้ายrefcoco.json
ไปที่ระดับเดียวกับcoco_train2014
ทำตามคำแนะนำการดาวน์โหลดคู่มือมาตรฐาน
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
coco_annotations | ลำดับ | |||
coco_annotations/พื้นที่ | เทนเซอร์ | int64 | ||
coco_annotations/bbox | คุณสมบัติ BBox | (4,) | ลอย32 | |
coco_annotations/id | เทนเซอร์ | int64 | ||
coco_annotations/label | เทนเซอร์ | int64 | ||
ภาพ | ภาพ | (ไม่มี, ไม่มี, 3) | uint8 | |
รูปภาพ/รหัส | เทนเซอร์ | int64 | ||
วัตถุ | ลำดับ | |||
วัตถุ/พื้นที่ | เทนเซอร์ | int64 | ||
วัตถุ/bbox | คุณสมบัติ BBox | (4,) | ลอย32 | |
วัตถุ/gt_box_index | เทนเซอร์ | int64 | ||
วัตถุ/รหัส | เทนเซอร์ | int64 | ||
วัตถุ/ฉลาก | เทนเซอร์ | int64 | ||
วัตถุ/refexp | ลำดับ | |||
วัตถุ / refexp / ดิบ | ข้อความ | สตริง | ||
วัตถุ/refexp/refexp_id | เทนเซอร์ | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
การอ้างอิง :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (การกำหนดค่าเริ่มต้น)
ขนาดชุดข้อมูล :
3.24 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1,500 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcoco_google
ขนาดชุดข้อมูล :
4.60 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
ขนาดชุดข้อมูล :
3.24 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1,500 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcocog_google
ขนาดชุดข้อมูล :
4.59 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcocog_umd
ขนาดชุดข้อมูล :
4.04 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,600 |
'train' | 21,899 |
'validation' | 1,300 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
- คำอธิบาย :
คอลเลกชันของชุดข้อมูลนิพจน์อ้างอิง 3 ชุดตามรูปภาพในชุดข้อมูล COCO นิพจน์อ้างอิงคือชิ้นส่วนของข้อความที่อธิบายวัตถุเฉพาะในรูปภาพ ชุดข้อมูลเหล่านี้รวบรวมโดยการขอให้ผู้ประเมินที่เป็นมนุษย์แยกแยะวัตถุที่วาดโดยกรอบขอบเขตในชุดข้อมูล COCO
RefCoco และ RefCoco+ มาจาก Kazemzadeh และคณะ 2014 การแสดงออกของ RefCoco+ เป็นคำอธิบายตามลักษณะที่ปรากฏอย่างเคร่งครัด ซึ่งบังคับใช้โดยป้องกันไม่ให้ผู้ประเมินใช้คำอธิบายตามสถานที่ (เช่น "คนทางขวา" ไม่ใช่คำอธิบายที่ถูกต้องสำหรับ RefCoco+) RefCocoG มาจาก Mao และคณะ 2016 และมีรายละเอียดของออบเจกต์ที่สมบูรณ์กว่าเมื่อเปรียบเทียบกับ RefCoco เนื่องจากความแตกต่างในกระบวนการใส่คำอธิบายประกอบ โดยเฉพาะอย่างยิ่ง RefCoco ถูกรวบรวมในการตั้งค่าเกมแบบโต้ตอบ ในขณะที่ RefCocoG ถูกรวบรวมในการตั้งค่าที่ไม่ใช่แบบโต้ตอบ โดยเฉลี่ยแล้ว RefCocoG มี 8.4 คำต่อนิพจน์ ในขณะที่ RefCoco มี 3.5 คำ
ชุดข้อมูลแต่ละชุดมีการแบ่งการจัดสรรที่แตกต่างกัน ซึ่งโดยทั่วไปแล้วรายงานทั้งหมดในเอกสาร ชุด "testA" และ "testB" ใน RefCoco และ RefCoco+ มีเฉพาะคนและคนเท่านั้นตามลำดับ ภาพจะถูกแบ่งออกเป็นส่วนๆ ในการแยก "google" วัตถุต่างๆ ไม่ใช่รูปภาพ จะถูกแบ่งระหว่างการแยกรถไฟและไม่ใช่รถไฟ ซึ่งหมายความว่าภาพเดียวกันสามารถปรากฏในทั้งรถไฟและการแยกการตรวจสอบ แต่วัตถุที่ถูกอ้างถึงในภาพจะแตกต่างกันระหว่างสองชุด ในทางตรงกันข้าม "unc" และ "umd" แยกอิมเมจพาร์ติชันระหว่างรถไฟ การตรวจสอบ และการแยกการทดสอบ ใน RefCocoG การแยก "google" ไม่มีชุดการทดสอบตามรูปแบบบัญญัติ และโดยทั่วไปชุดการตรวจสอบความถูกต้องจะรายงานในเอกสารเป็น "val*"
สถิติสำหรับแต่ละชุดข้อมูลและการแยก ("refs" คือจำนวนของนิพจน์อ้างอิง และ "images" คือจำนวนของรูปภาพ):
ชุดข้อมูล | พาร์ทิชัน | แยก | อ้างอิง | ภาพ |
---|---|---|---|---|
อ้างอิง | รถไฟ | 40000 | 19213 | |
อ้างอิง | วาล | 5,000 | 4559 | |
อ้างอิง | ทดสอบ | 5,000 | 4527 | |
อ้างอิง | ลุง | รถไฟ | 42404 | 16994 |
อ้างอิง | ลุง | วาล | 3811 | 1500 |
อ้างอิง | ลุง | ทดสอบ ก | 2518 | 750 |
อ้างอิง | ลุง | ทดสอบ ข | 1810 | 750 |
รีโคโค่+ | ลุง | รถไฟ | 42278 | 16992 |
รีโคโค่+ | ลุง | วาล | 3805 | 1500 |
รีโคโค่+ | ลุง | ทดสอบ ก | 2518 | 750 |
รีโคโค่+ | ลุง | ทดสอบ ข | 1798 | 750 |
รีโคค็อก | รถไฟ | 44822 | 24698 | |
รีโคค็อก | วาล | 5,000 | 4650 | |
รีโคค็อก | อืม | รถไฟ | 42226 | 21899 |
รีโคค็อก | อืม | วาล | 2573 | 1300 |
รีโคค็อก | อืม | ทดสอบ | 5023 | 2600 |
เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส
หน้าแรก : https://github.com/lichengunc/refer
รหัสที่มา :
tfds.datasets.ref_coco.Builder
รุ่น :
-
1.0.0
(ค่าเริ่มต้น): การเปิดตัวครั้งแรก
-
ขนาดการดาวน์โหลด :
Unknown size
คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน
download_config.manual_dir
(ค่าเริ่มต้นเป็น~/tensorflow_datasets/downloads/manual/
):ทำตามคำแนะนำใน https://github.com/lichengunc/refer และดาวน์โหลดคำอธิบายประกอบและรูปภาพ ให้ตรงกับไดเร็กทอรี data/ ที่ระบุใน repo
ทำตามคำแนะนำของ PythonAPI ใน https://github.com/cocodataset/cocoapi เพื่อรับ pycocotools และไฟล์คำอธิบายประกอบของ instances_train2014 จาก https://cocodataset.org/#download
เพิ่มทั้ง refer.py จาก (1) และ pycocotools จาก (2) ไปยัง PYTHONPATH ของคุณ
เรียกใช้ manual_download_process.py เพื่อสร้าง refcoco.json โดยแทนที่
ref_data_root
,coco_annotations_file
และout_file
ด้วยค่าที่สอดคล้องกับตำแหน่งที่คุณดาวน์โหลด / ต้องการบันทึกไฟล์เหล่านี้ โปรดทราบว่าสามารถพบ manual_download_process.py ในที่เก็บ TFDSดาวน์โหลดชุดฝึก COCO จาก https://cocodataset.org/#download แล้วนำไปใส่ในโฟลเดอร์ชื่อ
coco_train2014/
ย้ายrefcoco.json
ไปที่ระดับเดียวกับcoco_train2014
ทำตามคำแนะนำการดาวน์โหลดคู่มือมาตรฐาน
แคชอัตโนมัติ ( เอกสารประกอบ ): ไม่
โครงสร้างคุณลักษณะ :
FeaturesDict({
'coco_annotations': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'id': int64,
'label': int64,
}),
'image': Image(shape=(None, None, 3), dtype=uint8),
'image/id': int64,
'objects': Sequence({
'area': int64,
'bbox': BBoxFeature(shape=(4,), dtype=float32),
'gt_box_index': int64,
'id': int64,
'label': int64,
'refexp': Sequence({
'raw': Text(shape=(), dtype=string),
'refexp_id': int64,
}),
}),
})
- เอกสารคุณสมบัติ :
คุณสมบัติ | ระดับ | รูปร่าง | Dประเภท | คำอธิบาย |
---|---|---|---|---|
คุณสมบัติDict | ||||
coco_annotations | ลำดับ | |||
coco_annotations/พื้นที่ | เทนเซอร์ | int64 | ||
coco_annotations/bbox | คุณสมบัติ BBox | (4,) | ลอย32 | |
coco_annotations/id | เทนเซอร์ | int64 | ||
coco_annotations/label | เทนเซอร์ | int64 | ||
ภาพ | ภาพ | (ไม่มี, ไม่มี, 3) | uint8 | |
รูปภาพ/รหัส | เทนเซอร์ | int64 | ||
วัตถุ | ลำดับ | |||
วัตถุ/พื้นที่ | เทนเซอร์ | int64 | ||
วัตถุ/bbox | คุณสมบัติ BBox | (4,) | ลอย32 | |
วัตถุ/gt_box_index | เทนเซอร์ | int64 | ||
วัตถุ/รหัส | เทนเซอร์ | int64 | ||
วัตถุ/ฉลาก | เทนเซอร์ | int64 | ||
วัตถุ/refexp | ลำดับ | |||
วัตถุ / refexp / ดิบ | ข้อความ | สตริง | ||
วัตถุ/refexp/refexp_id | เทนเซอร์ | int64 |
คีย์ภายใต้การดูแล (ดู
as_supervised
doc ):None
การอ้างอิง :
@inproceedings{kazemzadeh2014referitgame,
title={Referitgame: Referring to objects in photographs of natural scenes},
author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
pages={787--798},
year={2014}
}
@inproceedings{yu2016modeling,
title={Modeling context in referring expressions},
author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
booktitle={European Conference on Computer Vision},
pages={69--85},
year={2016},
organization={Springer}
}
@inproceedings{mao2016generation,
title={Generation and Comprehension of Unambiguous Object Descriptions},
author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
booktitle={CVPR},
year={2016}
}
@inproceedings{nagaraja2016modeling,
title={Modeling context between objects for referring expression understanding},
author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
booktitle={European Conference on Computer Vision},
pages={792--807},
year={2016},
organization={Springer}
}
ref_coco/refcoco_unc (การกำหนดค่าเริ่มต้น)
ขนาดชุดข้อมูล :
3.24 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,994 |
'validation' | 1,500 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcoco_google
ขนาดชุดข้อมูล :
4.60 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 4,527 |
'train' | 19,213 |
'validation' | 4,559 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcocoplus_unc
ขนาดชุดข้อมูล :
3.24 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'testA' | 750 |
'testB' | 750 |
'train' | 16,992 |
'validation' | 1,500 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcocog_google
ขนาดชุดข้อมูล :
4.59 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'train' | 24,698 |
'validation' | 4,650 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):
ref_coco/refcocog_umd
ขนาดชุดข้อมูล :
4.04 GiB
แยก :
แยก | ตัวอย่าง |
---|---|
'test' | 2,600 |
'train' | 21,899 |
'validation' | 1,300 |
- รูป ( tfds.show_examples ):
- ตัวอย่าง ( tfds.as_dataframe ):