youtube_vis

  • תיאור :

Youtube-vis הוא מערך פילוח של מופעי וידאו. הוא מכיל 2,883 סרטוני YouTube ברזולוציה גבוהה, ערכת תווית קטגוריה לפיקסל הכוללת 40 אובייקטים נפוצים כגון אדם, חיות וכלי רכב, 4,883 מופעי וידאו ייחודיים ו-131,000 הערות ידניות באיכות גבוהה.

מערך הנתונים של YouTube-VIS מחולק ל-2,238 סרטוני הדרכה, 302 סרטוני אימות ו-343 סרטוני בדיקה.

לא הוסרו או שונו קבצים במהלך העיבוד המקדים.

  • תיעוד נוסף : חקור על ניירות עם קוד

  • דף הבית : https://youtube-vos.org/dataset/vis/

  • קוד מקור : tfds.video.youtube_vis.YoutubeVis

  • גרסאות :

    • 1.0.0 (ברירת מחדל): שחרור ראשוני.
  • גודל הורדה : Unknown size

  • הוראות הורדה ידניות : מערך נתונים זה מחייב אותך להוריד את נתוני המקור באופן ידני אל download_config.manual_dir (ברירת המחדל היא ~/tensorflow_datasets/downloads/manual/ ):
    הורד את כל הקבצים עבור גרסת 2019 של מערך הנתונים (test_all_frames.zip, test.json, train_all_frames.zip, train.json, valid_all_frames.zip, valid.json) מאתר youtube-vis והעבר אותם אל ~/tensorflow_datasets/ הורדות/ידנית/.

שים לב שדף הנחיתה של מערך הנתונים נמצא בכתובת https://youtube-vos.org/dataset/vis/, ולאחר מכן הוא יפנה אותך לדף ב- https://competitions.codalab.org שבו תוכל להוריד את גרסת 2019 של מערך הנתונים. תצטרך ליצור חשבון ב-codalab כדי להוריד את הנתונים. שימו לב שבזמן כתיבת שורות אלו, תצטרכו לעקוף אזהרת "חיבור לא מאובטח" בעת גישה ל-codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis/full (תצורת ברירת מחדל)

  • תיאור תצורה : גרסת הרזולוציה המלאה של מערך הנתונים, עם כל המסגרות, כולל אלה ללא תוויות.

  • גודל מערך נתונים : 33.31 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (אין, אין, אין, 1) uint8
וִידֵאוֹ וידאו (תמונה) (אין, אין, אין, 3) uint8

youtube_vis/480_640_full

  • תיאור תצורה : כל התמונות משתנות באופן ביליניארי ל-480 X 640 עם כל המסגרות כלולות.

  • גודל מערך נתונים : 130.02 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (ללא, 480, 640, 1) uint8
וִידֵאוֹ וידאו (תמונה) (ללא, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels

  • תיאור תצורה : כל התמונות משתנות באופן ביליניארי ל-480 X 640 עם רק מסגרות עם תוויות כלולות.

  • גודל ערכת נתונים: 26.27 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (ללא, 480, 640, 1) uint8
וִידֵאוֹ וידאו (תמונה) (ללא, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels

  • תיאור תצורה : רק תמונות עם תוויות כלולות ברזולוציה המקורית שלהן.

  • גודל ערכת נתונים : 6.91 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 343
'train' 2,238
'validation' 302
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (אין, אין, אין, 1) uint8
וִידֵאוֹ וידאו (תמונה) (אין, אין, אין, 3) uint8

youtube_vis/full_train_split

  • תיאור תצורה : גרסת הרזולוציה המלאה של מערך הנתונים, עם כל המסגרות, כולל אלה ללא תוויות. פיצולי ה- Val ובדיקה מיוצרים מנתוני ההדרכה.

  • גודל מערך נתונים : 26.09 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (אין, אין, אין, 1) uint8
וִידֵאוֹ וידאו (תמונה) (אין, אין, אין, 3) uint8

youtube_vis/480_640_full_train_split

  • תיאור תצורה : כל התמונות משתנות באופן ביליניארי ל-480 X 640 עם כל המסגרות כלולות. פיצולי ה- Val ובדיקה מיוצרים מנתוני ההדרכה.

  • גודל מערך נתונים : 101.57 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (ללא, 480, 640, 1) uint8
וִידֵאוֹ וידאו (תמונה) (ללא, 480, 640, 3) uint8

youtube_vis/480_640_only_frames_with_labels_train_split

  • תיאור תצורה : כל התמונות משתנות באופן ביליניארי ל-480 X 640 עם רק מסגרות עם תוויות כלולות. פיצולי ה- Val ובדיקה מיוצרים מנתוני ההדרכה.

  • גודל מערך נתונים : 20.55 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (ללא, 480, 640, 1) uint8
וִידֵאוֹ וידאו (תמונה) (ללא, 480, 640, 3) uint8

youtube_vis/only_frames_with_labels_train_split

  • תיאור תצורה : רק תמונות עם תוויות כלולות ברזולוציה המקורית שלהן. פיצולי ה- Val ובדיקה מיוצרים מנתוני ההדרכה.

  • גודל מערך נתונים : 5.46 GiB

  • פיצולים :

לְפַצֵל דוגמאות
'test' 200
'train' 1,838
'validation' 200
  • מבנה תכונה :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • תיעוד תכונה :
תכונה מעמד צוּרָה Dtype תיאור
FeaturesDict
מטא נתונים FeaturesDict
מטא נתונים/גובה מוֹתֵחַ int32
metadata/num_frames מוֹתֵחַ int32
metadata/video_name מוֹתֵחַ חוּט
מטא נתונים/רוחב מוֹתֵחַ int32
מסלולים סדר פעולות
מסלולים/שטחים רצף (טנזור) (אף אחד,) לצוף32
רצועות/bboxes רצף (BBoxFeature) (אין, 4) לצוף32
מסלולים/קטגוריה ClassLabel int64
מסלולים/מסגרות רצף (טנזור) (אף אחד,) int32
tracks/is_crowd מוֹתֵחַ bool
מסלולים/פילוחים וידאו (תמונה) (אין, אין, אין, 1) uint8
וִידֵאוֹ וידאו (תמונה) (אין, אין, אין, 3) uint8