youtube_vis

  • תיאור:

Youtube-vis הוא מערך פילוח של מופעי וידאו. הוא מכיל 2,883 סרטוני YouTube ברזולוציה גבוהה, קבוצת תוויות לפי קטגוריות הכוללות 40 אובייקטים נפוצים כגון אדם, בעלי חיים ורכבים, 4,883 מופעי וידאו ייחודיים ו -131 אלף הערות ידניות באיכות גבוהה.

מערך הנתונים של YouTube-VIS מחולק ל -2,238 סרטוני הדרכה, 302 סרטוני אימות ו -343 סרטוני בדיקה.

אף קובץ לא הוסר או שונה במהלך העיבוד המקדים.

  • דף הבית: https://youtube-vos.org/dataset/vis/

  • קוד מקור: tfds.video.youtube_vis.YoutubeVis

  • גרסאות:

    • 1.0.0 (ברירת המחדל): מהדורה ראשונית.
  • גודל ההורדה: Unknown size

  • הוראות הורדה ידנית: מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני לתוך download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    אנא הורד את כל הקבצים לגרסת 2019 של מערך הנתונים (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) מאתר youtube-vis והעבר אותם אל ~/tensorflow_datasets/ הורדות/מדריך/.

לידיעתך, דף הנחיתה במערך ממוקמת https://youtube-vos.org/dataset/vis/, וזה אז יפנה אותך לדף על https://competitions.codalab.org שבו אתה יכול להוריד את גירסת 2019 של מערך הנתונים. יהיה עליך ליצור חשבון ב- codalab כדי להוריד את הנתונים. שים לב כי בעת כתיבת הודעה זו, יהיה עליך לעקוף אזהרת "חיבור לא מאובטח" בעת גישה ל- codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (ברירת מחדל)

  • תיאור Config: הגרסה ברזולוציה מלאה של בסיס הנתונים, עם כל המסגרות, כולל אלה בלי תוויות, כלולים.

  • גודל בסיס הנתונים: 33.31 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_full

  • תיאור Config: כל התמונות מוקטנות bilinearly כדי 480 X 640 עם כל המסגרות כלולים.

  • גודל בסיס הנתונים: 130.02 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_only_frames_with_labels

  • תיאור Config: כל התמונות מוקטנות bilinearly כדי 480 X 640 עם מסגרות רק עם תוויות כלולים.

  • גודל בסיס הנתונים: 26.27 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/only_frames_with_labels

  • תיאור Config: רק תמונות עם תוויות כלול ברזולוציה המקורית שלהם.

  • גודל בסיס הנתונים: 6.91 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/full_train_split

  • תיאור Config: הגרסה ברזולוציה מלאה של בסיס הנתונים, עם כל המסגרות, כולל אלה בלי תוויות, כלולים. פיצולי ה- val והבדיקה מיוצרים מנתוני האימון.

  • גודל בסיס הנתונים: 26.09 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_full_train_split

  • תיאור Config: כל התמונות מוקטנות bilinearly כדי 480 X 640 עם כל המסגרות כלולים. פיצולי ה- val והבדיקה מיוצרים מנתוני האימון.

  • גודל בסיס הנתונים: 101.57 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/480_640_only_frames_with_labels_train_split

  • תיאור Config: כל התמונות מוקטנות bilinearly כדי 480 X 640 עם מסגרות רק עם תוויות כלולים. פיצולי ה- val והבדיקה מיוצרים מנתוני האימון.

  • גודל בסיס הנתונים: 20.55 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=tf.uint8)),
})

youtube_vis/only_frames_with_labels_train_split

  • תיאור Config: רק תמונות עם תוויות כלול ברזולוציה המקורית שלהם. פיצולי ה- val והבדיקה מיוצרים מנתוני האימון.

  • גודל בסיס הנתונים: 5.46 GiB

  • פיצולים:

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מאפיינים:
FeaturesDict({
    'metadata': FeaturesDict({
        'height': tf.int32,
        'num_frames': tf.int32,
        'video_name': tf.string,
        'width': tf.int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(tf.float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=tf.float32)),
        'category': ClassLabel(shape=(), dtype=tf.int64, num_classes=40),
        'frames': Sequence(tf.int32),
        'is_crowd': tf.bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=tf.uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=tf.uint8)),
})