ขอขอบคุณที่เข้าร่วม Google I/O ดูเซสชั่นทั้งหมดตามความต้องการ ดูตามความต้องการ

ref_coco

  • คำอธิบาย :

คอลเลกชันของชุดข้อมูลนิพจน์อ้างอิง 3 ชุดตามรูปภาพในชุดข้อมูล COCO นิพจน์อ้างอิงคือชิ้นส่วนของข้อความที่อธิบายวัตถุเฉพาะในรูปภาพ ชุดข้อมูลเหล่านี้รวบรวมโดยการขอให้ผู้ประเมินที่เป็นมนุษย์แยกแยะวัตถุที่วาดโดยกรอบขอบเขตในชุดข้อมูล COCO

RefCoco และ RefCoco+ มาจาก Kazemzadeh และคณะ 2014 การแสดงออกของ RefCoco+ เป็นคำอธิบายตามลักษณะที่ปรากฏอย่างเคร่งครัด ซึ่งบังคับใช้โดยป้องกันไม่ให้ผู้ประเมินใช้คำอธิบายตามสถานที่ (เช่น "คนทางขวา" ไม่ใช่คำอธิบายที่ถูกต้องสำหรับ RefCoco+) RefCocoG มาจาก Mao และคณะ 2016 และมีรายละเอียดของออบเจกต์ที่สมบูรณ์กว่าเมื่อเปรียบเทียบกับ RefCoco เนื่องจากความแตกต่างในกระบวนการใส่คำอธิบายประกอบ โดยเฉพาะอย่างยิ่ง RefCoco ถูกรวบรวมในการตั้งค่าเกมแบบโต้ตอบ ในขณะที่ RefCocoG ถูกรวบรวมในการตั้งค่าที่ไม่ใช่แบบโต้ตอบ โดยเฉลี่ยแล้ว RefCocoG มี 8.4 คำต่อนิพจน์ ในขณะที่ RefCoco มี 3.5 คำ

ชุดข้อมูลแต่ละชุดมีการแบ่งการจัดสรรที่แตกต่างกัน ซึ่งโดยทั่วไปแล้วรายงานทั้งหมดในเอกสาร ชุด "testA" และ "testB" ใน RefCoco และ RefCoco+ มีเฉพาะคนและคนเท่านั้นตามลำดับ ภาพจะถูกแบ่งออกเป็นส่วนๆ ในการแยก "google" วัตถุต่างๆ ไม่ใช่รูปภาพ จะถูกแบ่งระหว่างการแยกรถไฟและไม่ใช่รถไฟ ซึ่งหมายความว่าภาพเดียวกันสามารถปรากฏในทั้งรถไฟและการแยกการตรวจสอบ แต่วัตถุที่ถูกอ้างถึงในภาพจะแตกต่างกันระหว่างสองชุด ในทางตรงกันข้าม "unc" และ "umd" แยกอิมเมจพาร์ติชันระหว่างรถไฟ การตรวจสอบ และการแยกการทดสอบ ใน RefCocoG การแยก "google" ไม่มีชุดการทดสอบตามรูปแบบบัญญัติ และโดยทั่วไปชุดการตรวจสอบความถูกต้องจะรายงานในเอกสารเป็น "val*"

สถิติสำหรับแต่ละชุดข้อมูลและการแยก ("refs" คือจำนวนของนิพจน์อ้างอิง และ "images" คือจำนวนของรูปภาพ):

ชุดข้อมูล พาร์ทิชัน แยก อ้างอิง ภาพ
อ้างอิง Google รถไฟ 40000 19213
อ้างอิง Google วาล 5,000 4559
อ้างอิง Google ทดสอบ 5,000 4527
อ้างอิง ลุง รถไฟ 42404 16994
อ้างอิง ลุง วาล 3811 1500
อ้างอิง ลุง ทดสอบ ก 2518 750
อ้างอิง ลุง ทดสอบ ข 1810 750
รีโคโค่+ ลุง รถไฟ 42278 16992
รีโคโค่+ ลุง วาล 3805 1500
รีโคโค่+ ลุง ทดสอบ ก 2518 750
รีโคโค่+ ลุง ทดสอบ ข 1798 750
รีโคค็อก Google รถไฟ 44822 24698
รีโคค็อก Google วาล 5,000 4650
รีโคค็อก อืม รถไฟ 42226 21899
รีโคค็อก อืม วาล 2573 1300
รีโคค็อก อืม ทดสอบ 5023 2600
  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/lichengunc/refer

  • รหัสที่มา : tfds.datasets.ref_coco.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):

  • ทำตามคำแนะนำใน https://github.com/lichengunc/refer และดาวน์โหลดคำอธิบายประกอบและรูปภาพ ให้ตรงกับไดเร็กทอรี data/ ที่ระบุใน repo

  1. ทำตามคำแนะนำของ PythonAPI ใน https://github.com/cocodataset/cocoapi เพื่อรับ pycocotools และไฟล์คำอธิบายประกอบของ instances_train2014 จาก https://cocodataset.org/#download

  2. เพิ่มทั้ง refer.py จาก (1) และ pycocotools จาก (2) ไปยัง PYTHONPATH ของคุณ

  3. เรียกใช้ manual_download_process.py เพื่อสร้าง refcoco.json โดยแทนที่ ref_data_root , coco_annotations_file และ out_file ด้วยค่าที่สอดคล้องกับตำแหน่งที่คุณดาวน์โหลด / ต้องการบันทึกไฟล์เหล่านี้ โปรดทราบว่าสามารถพบ manual_download_process.py ในที่เก็บ TFDS

  4. ดาวน์โหลดชุดฝึก COCO จาก https://cocodataset.org/#download แล้วนำไปใส่ในโฟลเดอร์ชื่อ coco_train2014/ ย้าย refcoco.json ไปที่ระดับเดียวกับ coco_train2014

  5. ทำตามคำแนะนำการดาวน์โหลดคู่มือมาตรฐาน

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
coco_annotations ลำดับ
coco_annotations/พื้นที่ เทนเซอร์ int64
coco_annotations/bbox คุณสมบัติ BBox (4,) ลอย32
coco_annotations/id เทนเซอร์ int64
coco_annotations/label เทนเซอร์ int64
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
รูปภาพ/รหัส เทนเซอร์ int64
วัตถุ ลำดับ
วัตถุ/พื้นที่ เทนเซอร์ int64
วัตถุ/bbox คุณสมบัติ BBox (4,) ลอย32
วัตถุ/gt_box_index เทนเซอร์ int64
วัตถุ/รหัส เทนเซอร์ int64
วัตถุ/ฉลาก เทนเซอร์ int64
วัตถุ/refexp ลำดับ
วัตถุ / refexp / ดิบ ข้อความ สตริง
วัตถุ/refexp/refexp_id เทนเซอร์ int64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • การอ้างอิง :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 3.24 GiB

  • แยก :

แยก ตัวอย่าง
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

การสร้างภาพ

ref_coco/refcoco_google

  • ขนาดชุดข้อมูล : 4.60 GiB

  • แยก :

แยก ตัวอย่าง
'test' 4,527
'train' 19,213
'validation' 4,559

การสร้างภาพ

ref_coco/refcocoplus_unc

  • ขนาดชุดข้อมูล : 3.24 GiB

  • แยก :

แยก ตัวอย่าง
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

การสร้างภาพ

ref_coco/refcocog_google

  • ขนาดชุดข้อมูล : 4.59 GiB

  • แยก :

แยก ตัวอย่าง
'train' 24,698
'validation' 4,650

การสร้างภาพ

ref_coco/refcocog_umd

  • ขนาดชุดข้อมูล : 4.04 GiB

  • แยก :

แยก ตัวอย่าง
'test' 2,600
'train' 21,899
'validation' 1,300

การสร้างภาพ

,

  • คำอธิบาย :

คอลเลกชันของชุดข้อมูลนิพจน์อ้างอิง 3 ชุดตามรูปภาพในชุดข้อมูล COCO นิพจน์อ้างอิงคือชิ้นส่วนของข้อความที่อธิบายวัตถุเฉพาะในรูปภาพ ชุดข้อมูลเหล่านี้รวบรวมโดยการขอให้ผู้ประเมินที่เป็นมนุษย์แยกแยะวัตถุที่วาดโดยกรอบขอบเขตในชุดข้อมูล COCO

RefCoco และ RefCoco+ มาจาก Kazemzadeh และคณะ 2014 การแสดงออกของ RefCoco+ เป็นคำอธิบายตามลักษณะที่ปรากฏอย่างเคร่งครัด ซึ่งบังคับใช้โดยป้องกันไม่ให้ผู้ประเมินใช้คำอธิบายตามสถานที่ (เช่น "คนทางขวา" ไม่ใช่คำอธิบายที่ถูกต้องสำหรับ RefCoco+) RefCocoG มาจาก Mao และคณะ 2016 และมีรายละเอียดของออบเจกต์ที่สมบูรณ์กว่าเมื่อเปรียบเทียบกับ RefCoco เนื่องจากความแตกต่างในกระบวนการใส่คำอธิบายประกอบ โดยเฉพาะอย่างยิ่ง RefCoco ถูกรวบรวมในการตั้งค่าเกมแบบโต้ตอบ ในขณะที่ RefCocoG ถูกรวบรวมในการตั้งค่าที่ไม่ใช่แบบโต้ตอบ โดยเฉลี่ยแล้ว RefCocoG มี 8.4 คำต่อนิพจน์ ในขณะที่ RefCoco มี 3.5 คำ

ชุดข้อมูลแต่ละชุดมีการแบ่งการจัดสรรที่แตกต่างกัน ซึ่งโดยทั่วไปแล้วรายงานทั้งหมดในเอกสาร ชุด "testA" และ "testB" ใน RefCoco และ RefCoco+ มีเฉพาะคนและคนเท่านั้นตามลำดับ ภาพจะถูกแบ่งออกเป็นส่วนๆ ในการแยก "google" วัตถุต่างๆ ไม่ใช่รูปภาพ จะถูกแบ่งระหว่างการแยกรถไฟและไม่ใช่รถไฟ ซึ่งหมายความว่าภาพเดียวกันสามารถปรากฏในทั้งรถไฟและการแยกการตรวจสอบ แต่วัตถุที่ถูกอ้างถึงในภาพจะแตกต่างกันระหว่างสองชุด ในทางตรงกันข้าม "unc" และ "umd" แยกอิมเมจพาร์ติชันระหว่างรถไฟ การตรวจสอบ และการแยกการทดสอบ ใน RefCocoG การแยก "google" ไม่มีชุดการทดสอบตามรูปแบบบัญญัติ และโดยทั่วไปชุดการตรวจสอบความถูกต้องจะรายงานในเอกสารเป็น "val*"

สถิติสำหรับแต่ละชุดข้อมูลและการแยก ("refs" คือจำนวนของนิพจน์อ้างอิง และ "images" คือจำนวนของรูปภาพ):

ชุดข้อมูล พาร์ทิชัน แยก อ้างอิง ภาพ
อ้างอิง Google รถไฟ 40000 19213
อ้างอิง Google วาล 5,000 4559
อ้างอิง Google ทดสอบ 5,000 4527
อ้างอิง ลุง รถไฟ 42404 16994
อ้างอิง ลุง วาล 3811 1500
อ้างอิง ลุง ทดสอบ ก 2518 750
อ้างอิง ลุง ทดสอบ ข 1810 750
รีโคโค่+ ลุง รถไฟ 42278 16992
รีโคโค่+ ลุง วาล 3805 1500
รีโคโค่+ ลุง ทดสอบ ก 2518 750
รีโคโค่+ ลุง ทดสอบ ข 1798 750
รีโคค็อก Google รถไฟ 44822 24698
รีโคค็อก Google วาล 5,000 4650
รีโคค็อก อืม รถไฟ 42226 21899
รีโคค็อก อืม วาล 2573 1300
รีโคค็อก อืม ทดสอบ 5023 2600
  • เอกสารประกอบเพิ่มเติม : สำรวจเอกสารด้วยรหัส

  • หน้าแรก : https://github.com/lichengunc/refer

  • รหัสที่มา : tfds.datasets.ref_coco.Builder

  • รุ่น :

    • 1.0.0 (ค่าเริ่มต้น): การเปิดตัวครั้งแรก
  • ขนาดการดาวน์โหลด : Unknown size

  • คำแนะนำในการดาวน์โหลดด้วยตนเอง : ชุดข้อมูลนี้กำหนดให้คุณต้องดาวน์โหลดแหล่งข้อมูลด้วยตนเองลงใน download_config.manual_dir (ค่าเริ่มต้นเป็น ~/tensorflow_datasets/downloads/manual/ ):

  • ทำตามคำแนะนำใน https://github.com/lichengunc/refer และดาวน์โหลดคำอธิบายประกอบและรูปภาพ ให้ตรงกับไดเร็กทอรี data/ ที่ระบุใน repo

  1. ทำตามคำแนะนำของ PythonAPI ใน https://github.com/cocodataset/cocoapi เพื่อรับ pycocotools และไฟล์คำอธิบายประกอบของ instances_train2014 จาก https://cocodataset.org/#download

  2. เพิ่มทั้ง refer.py จาก (1) และ pycocotools จาก (2) ไปยัง PYTHONPATH ของคุณ

  3. เรียกใช้ manual_download_process.py เพื่อสร้าง refcoco.json โดยแทนที่ ref_data_root , coco_annotations_file และ out_file ด้วยค่าที่สอดคล้องกับตำแหน่งที่คุณดาวน์โหลด / ต้องการบันทึกไฟล์เหล่านี้ โปรดทราบว่าสามารถพบ manual_download_process.py ในที่เก็บ TFDS

  4. ดาวน์โหลดชุดฝึก COCO จาก https://cocodataset.org/#download แล้วนำไปใส่ในโฟลเดอร์ชื่อ coco_train2014/ ย้าย refcoco.json ไปที่ระดับเดียวกับ coco_train2014

  5. ทำตามคำแนะนำการดาวน์โหลดคู่มือมาตรฐาน

FeaturesDict({
    'coco_annotations': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'id': int64,
        'label': int64,
    }),
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/id': int64,
    'objects': Sequence({
        'area': int64,
        'bbox': BBoxFeature(shape=(4,), dtype=float32),
        'gt_box_index': int64,
        'id': int64,
        'label': int64,
        'refexp': Sequence({
            'raw': Text(shape=(), dtype=string),
            'refexp_id': int64,
        }),
    }),
})
  • เอกสารคุณสมบัติ :
คุณสมบัติ ระดับ รูปร่าง Dประเภท คำอธิบาย
คุณสมบัติDict
coco_annotations ลำดับ
coco_annotations/พื้นที่ เทนเซอร์ int64
coco_annotations/bbox คุณสมบัติ BBox (4,) ลอย32
coco_annotations/id เทนเซอร์ int64
coco_annotations/label เทนเซอร์ int64
ภาพ ภาพ (ไม่มี, ไม่มี, 3) uint8
รูปภาพ/รหัส เทนเซอร์ int64
วัตถุ ลำดับ
วัตถุ/พื้นที่ เทนเซอร์ int64
วัตถุ/bbox คุณสมบัติ BBox (4,) ลอย32
วัตถุ/gt_box_index เทนเซอร์ int64
วัตถุ/รหัส เทนเซอร์ int64
วัตถุ/ฉลาก เทนเซอร์ int64
วัตถุ/refexp ลำดับ
วัตถุ / refexp / ดิบ ข้อความ สตริง
วัตถุ/refexp/refexp_id เทนเซอร์ int64
  • คีย์ภายใต้การดูแล (ดู as_supervised doc ): None

  • การอ้างอิง :

@inproceedings{kazemzadeh2014referitgame,
  title={Referitgame: Referring to objects in photographs of natural scenes},
  author={Kazemzadeh, Sahar and Ordonez, Vicente and Matten, Mark and Berg, Tamara},
  booktitle={Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP)},
  pages={787--798},
  year={2014}
}
@inproceedings{yu2016modeling,
  title={Modeling context in referring expressions},
  author={Yu, Licheng and Poirson, Patrick and Yang, Shan and Berg, Alexander C and Berg, Tamara L},
  booktitle={European Conference on Computer Vision},
  pages={69--85},
  year={2016},
  organization={Springer}
}
@inproceedings{mao2016generation,
  title={Generation and Comprehension of Unambiguous Object Descriptions},
  author={Mao, Junhua and Huang, Jonathan and Toshev, Alexander and Camburu, Oana and Yuille, Alan and Murphy, Kevin},
  booktitle={CVPR},
  year={2016}
}
@inproceedings{nagaraja2016modeling,
  title={Modeling context between objects for referring expression understanding},
  author={Nagaraja, Varun K and Morariu, Vlad I and Davis, Larry S},
  booktitle={European Conference on Computer Vision},
  pages={792--807},
  year={2016},
  organization={Springer}
}

ref_coco/refcoco_unc (การกำหนดค่าเริ่มต้น)

  • ขนาดชุดข้อมูล : 3.24 GiB

  • แยก :

แยก ตัวอย่าง
'testA' 750
'testB' 750
'train' 16,994
'validation' 1,500

การสร้างภาพ

ref_coco/refcoco_google

  • ขนาดชุดข้อมูล : 4.60 GiB

  • แยก :

แยก ตัวอย่าง
'test' 4,527
'train' 19,213
'validation' 4,559

การสร้างภาพ

ref_coco/refcocoplus_unc

  • ขนาดชุดข้อมูล : 3.24 GiB

  • แยก :

แยก ตัวอย่าง
'testA' 750
'testB' 750
'train' 16,992
'validation' 1,500

การสร้างภาพ

ref_coco/refcocog_google

  • ขนาดชุดข้อมูล : 4.59 GiB

  • แยก :

แยก ตัวอย่าง
'train' 24,698
'validation' 4,650

การสร้างภาพ

ref_coco/refcocog_umd

  • ขนาดชุดข้อมูล : 4.04 GiB

  • แยก :

แยก ตัวอย่าง
'test' 2,600
'train' 21,899
'validation' 1,300

การสร้างภาพ