open_images_v4

Open Images הוא מערך נתונים של ~9 מיליון תמונות שצורפו עם תוויות ברמת התמונה ותיבות תוחמות אובייקט.

ערכת ההדרכה של V4 מכילה 14.6 מיליון תיבות תוחמות עבור 600 מחלקות אובייקט ב-1.74 מיליון תמונות, מה שהופך אותו למערך הנתונים הגדול ביותר הקיים עם הערות מיקום אובייקט. הקופסאות צוירו ידנית ברובן על ידי כותבים מקצועיים כדי להבטיח דיוק ועקביות. התמונות מגוונות מאוד ולרוב מכילות סצנות מורכבות עם מספר אובייקטים (8.4 לתמונה בממוצע). יתר על כן, מערך הנתונים מסומן בתוויות ברמת התמונה המשתרעות על פני אלפי מחלקות.

לְפַצֵל דוגמאות
'test' 125,436
'train' 1,743,042
'validation' 41,620
  • מבנה תכונה :
FeaturesDict({
    'bobjects': Sequence({
        'bbox': BBoxFeature(shape=(4,), dtype=tf.float32),
        'is_depiction': tf.int8,
        'is_group_of': tf.int8,
        'is_inside': tf.int8,
        'is_occluded': tf.int8,
        'is_truncated': tf.int8,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=601),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    }),
    'image': Image(shape=(None, None, 3), dtype=tf.uint8),
    'image/filename': Text(shape=(), dtype=tf.string),
    'objects': Sequence({
        'confidence': tf.int32,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=19995),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    }),
    'objects_trainable': Sequence({
        'confidence': tf.int32,
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=7186),
        'source': ClassLabel(shape=(), dtype=tf.int64, num_classes=6),
    }),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
bobjects סדר פעולות
bobjects/bbox BBoxFeature (4,) tf.float32
bobjects/is_depiction מוֹתֵחַ tf.int8
bobjects/is_group_of מוֹתֵחַ tf.int8
bobjects/is_inside מוֹתֵחַ tf.int8
bobjects/is_occluded מוֹתֵחַ tf.int8
bobjects/is_truncated מוֹתֵחַ tf.int8
bobjects/תווית ClassLabel tf.int64
bobjects/מקור ClassLabel tf.int64
תמונה תמונה (אין, אין, 3) tf.uint8
תמונה/שם קובץ טֶקסט tf.string
חפצים סדר פעולות
חפצים/ביטחון מוֹתֵחַ tf.int32
חפצים/תווית ClassLabel tf.int64
אובייקטים/מקור ClassLabel tf.int64
חפצים_ניתנים לאימון סדר פעולות
חפצים_ניתנים לאימון/ביטחון מוֹתֵחַ tf.int32
אובייקטים_ניתנים לאימון/תווית ClassLabel tf.int64
objects_trainable/source ClassLabel tf.int64
@article{OpenImages,
  author = {Alina Kuznetsova and
            Hassan Rom and
            Neil Alldrin and
            Jasper Uijlings and
            Ivan Krasin and
            Jordi Pont-Tuset and
            Shahab Kamali and
            Stefan Popov and
            Matteo Malloci and
            Tom Duerig and
            Vittorio Ferrari},
  title = {The Open Images Dataset V4: Unified image classification,
           object detection, and visual relationship detection at scale},
  year = {2018},
  journal = {arXiv:1811.00982}
}
@article{OpenImages2,
  author = {Krasin, Ivan and
            Duerig, Tom and
            Alldrin, Neil and
            Ferrari, Vittorio
            and Abu-El-Haija, Sami and
            Kuznetsova, Alina and
            Rom, Hassan and
            Uijlings, Jasper and
            Popov, Stefan and
            Kamali, Shahab and
            Malloci, Matteo and
            Pont-Tuset, Jordi and
            Veit, Andreas and
            Belongie, Serge and
            Gomes, Victor and
            Gupta, Abhinav and
            Sun, Chen and
            Chechik, Gal and
            Cai, David and
            Feng, Zheyun and
            Narayanan, Dhyanesh and
            Murphy, Kevin},
  title = {OpenImages: A public dataset for large-scale multi-label and
           multi-class image classification.},
  journal = {Dataset available from
             https://storage.googleapis.com/openimages/web/index.html},
  year={2017}
}

open_images_v4/original (תצורת ברירת מחדל)

  • תיאור תצורה : תמונות ברזולוציה ובאיכות המקוריים שלהן.

open_images_v4/300k

  • תיאור תצורה : לתמונות יש בערך 300,000 פיקסלים, באיכות 72 JPEG.

open_images_v4/200k

  • תיאור תצורה : לתמונות יש בערך 200,000 פיקסלים, באיכות 72 JPEG.