youtube_vis

  • الوصف :

Youtube-vis هي مجموعة بيانات تجزئة مثيل الفيديو. يحتوي على 2883 مقطع فيديو YouTube عالي الدقة ، ومجموعة تصنيف لكل بكسل تتضمن 40 عنصرًا شائعًا مثل الأشخاص والحيوانات والمركبات و 4883 حالة فيديو فريدة و 131 كيلو من التعليقات التوضيحية اليدوية عالية الجودة.

يتم تقسيم مجموعة بيانات YouTube-VIS إلى 2238 مقطع فيديو تدريبي و 302 مقطع فيديو للتحقق و 343 مقطع فيديو اختبار.

لم تتم إزالة أي ملفات أو تغييرها أثناء المعالجة المسبقة.

  • وثائق إضافية : استكشف في الأوراق باستخدام الرمز

  • الصفحة الرئيسية : https://youtube-vos.org/dataset/vis/

  • شفرة المصدر : tfds.video.youtube_vis.YoutubeVis

  • إصدارات :

    • 1.0.0 (افتراضي): الإصدار الأولي.
  • حجم التنزيل : Unknown size

  • إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
    يرجى تنزيل جميع الملفات الخاصة بإصدار 2019 من مجموعة البيانات (test_all_frames.zip ، test.json ، train_all_frames.zip ، train.json ، valid_all_frames.zip ، valid.json) من موقع youtube-vis على الويب وانقلها إلى ~ / tensorflow_datasets / التنزيلات / دليل /.

لاحظ أن الصفحة المقصودة لمجموعة البيانات موجودة على https://youtube-vos.org/dataset/vis/ ، وستتم إعادة توجيهك بعد ذلك إلى صفحة على https://competitions.codalab.org حيث يمكنك تنزيل إصدار 2019 من مجموعة البيانات. ستحتاج إلى إنشاء حساب على codalab لتنزيل البيانات. لاحظ أنه في وقت كتابة هذا ، ستحتاج إلى تجاوز تحذير "الاتصال غير آمن" عند الوصول إلى codalab.

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / كامل (التكوين الافتراضي)

  • وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات ، مع تضمين جميع الإطارات ، بما في ذلك تلك التي لا تحتوي على ملصقات.

  • حجم مجموعة البيانات : 33.31 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 343
'train' 2،238
'validation' 302
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 3) uint8

youtube_vis / 480_640_full

  • وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع تضمين جميع الإطارات.

  • حجم مجموعة البيانات : 130.02 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 343
'train' 2،238
'validation' 302
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، 480 ، 640 ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، 480 ، 640 ، 3) uint8

youtube_vis / 480_640_only_frames_with_labels

  • وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع الإطارات التي تحتوي على ملصقات فقط.

  • حجم مجموعة البيانات : 26.27 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 343
'train' 2،238
'validation' 302
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، 480 ، 640 ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، 480 ، 640 ، 3) uint8

youtube_vis / only_frames_with_labels

  • وصف التكوين : فقط الصور التي تحتوي على تسميات مضمنة بدقة أصلية.

  • حجم مجموعة البيانات : 6.91 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 343
'train' 2،238
'validation' 302
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 3) uint8

youtube_vis / full_train_split

  • وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات ، مع تضمين جميع الإطارات ، بما في ذلك تلك التي لا تحتوي على ملصقات. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.

  • حجم مجموعة البيانات : 26.09 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 200
'train' 1،838
'validation' 200
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 3) uint8

youtube_vis / 480_640_full_train_split

  • وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع تضمين جميع الإطارات. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.

  • حجم مجموعة البيانات : 101.57 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 200
'train' 1،838
'validation' 200
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، 480 ، 640 ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، 480 ، 640 ، 3) uint8

youtube_vis / 480_640_only_frames_with_labels_train_split

  • وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع الإطارات التي تحتوي على ملصقات فقط. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.

  • حجم مجموعة البيانات : 20.55 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 200
'train' 1،838
'validation' 200
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، 480 ، 640 ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، 480 ، 640 ، 3) uint8

youtube_vis / only_frames_with_labels_train_split

  • وصف التكوين : فقط الصور التي تحتوي على تسميات مضمنة بدقة أصلية. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.

  • حجم مجموعة البيانات : 5.46 GiB

  • الانقسامات :

انشق، مزق أمثلة
'test' 200
'train' 1،838
'validation' 200
  • هيكل الميزة :
FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})
  • وثائق الميزة :
ميزة فصل شكل نوع وصف
الميزات
البيانات الوصفية الميزات
البيانات الوصفية / الارتفاع موتر int32
البيانات الوصفية / عدد الإطارات موتر int32
البيانات الوصفية / اسم_الفيديو موتر سلسلة
البيانات الوصفية / العرض موتر int32
المسارات تسلسل
المسارات / المناطق تسلسل (موتر) (لا أحد،) تعويم 32
المسارات / bboxes تسلسل (ميزة BBox) (لا شيء ، 4) تعويم 32
المسارات / الفئة ClassLabel int64
المسارات / الإطارات تسلسل (موتر) (لا أحد،) int32
المسارات / is_crowd موتر منطقي
المسارات / التجزئة فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 1) uint8
فيديو فيديو (صورة) (لا شيء ، لا شيء ، لا شيء ، 3) uint8