يدعم TFDS الآن تنسيق الكرواسون 🥐 ! اقرأ الوثائق لمعرفة المزيد.

تمت ترجمة هذه الصفحة بواسطة Cloud Translation API‏.

youtube_vis

الوصف :

Youtube-vis هي مجموعة بيانات تجزئة مثيل الفيديو. يحتوي على 2883 مقطع فيديو YouTube عالي الدقة ، ومجموعة تصنيف لكل بكسل تتضمن 40 عنصرًا شائعًا مثل الأشخاص والحيوانات والمركبات و 4883 حالة فيديو فريدة و 131 كيلو من التعليقات التوضيحية اليدوية عالية الجودة.

يتم تقسيم مجموعة بيانات YouTube-VIS إلى 2238 مقطع فيديو تدريبي و 302 مقطع فيديو للتحقق و 343 مقطع فيديو اختبار.

لم تتم إزالة أي ملفات أو تغييرها أثناء المعالجة المسبقة.

وثائق إضافية : استكشف في الأوراق باستخدام الرمز
الصفحة الرئيسية : https://youtube-vos.org/dataset/vis/
شفرة المصدر : tfds.video.youtube_vis.YoutubeVis
إصدارات :
- 1.0.0 (افتراضي): الإصدار الأولي.
حجم التنزيل : Unknown size
إرشادات التنزيل اليدوي : تتطلب مجموعة البيانات هذه تنزيل بيانات المصدر يدويًا إلى download_config.manual_dir (الإعدادات الافتراضية على ~/tensorflow_datasets/downloads/manual/ ):
يرجى تنزيل جميع الملفات الخاصة بإصدار 2019 من مجموعة البيانات (test_all_frames.zip ، test.json ، train_all_frames.zip ، train.json ، valid_all_frames.zip ، valid.json) من موقع youtube-vis على الويب وانقلها إلى ~ / tensorflow_datasets / التنزيلات / دليل /.

لاحظ أن الصفحة المقصودة لمجموعة البيانات موجودة على https://youtube-vos.org/dataset/vis/ ، وستتم إعادة توجيهك بعد ذلك إلى صفحة على https://competitions.codalab.org حيث يمكنك تنزيل إصدار 2019 من مجموعة البيانات. ستحتاج إلى إنشاء حساب على codalab لتنزيل البيانات. لاحظ أنه في وقت كتابة هذا ، ستحتاج إلى تجاوز تحذير "الاتصال غير آمن" عند الوصول إلى codalab.

التخزين المؤقت التلقائي ( التوثيق ): لا
المفاتيح الخاضعة للإشراف (انظر المستند as_supervised ): None
الشكل ( tfds.show_examples ): غير مدعوم.
الاقتباس :

@article{DBLP:journals/corr/abs-1905-04804,
  author    = {Linjie Yang and
               Yuchen Fan and
               Ning Xu},
  title     = {Video Instance Segmentation},
  journal   = {CoRR},
  volume    = {abs/1905.04804},
  year      = {2019},
  url       = {http://arxiv.org/abs/1905.04804},
  archivePrefix = {arXiv},
  eprint    = {1905.04804},
  timestamp = {Tue, 28 May 2019 12:48:08 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-1905-04804.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

youtube_vis / كامل (التكوين الافتراضي)

وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات ، مع تضمين جميع الإطارات ، بما في ذلك تلك التي لا تحتوي على ملصقات.
حجم مجموعة البيانات : 33.31 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	343
`'train'`	2،238
`'validation'`	302

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / 480_640_full

وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع تضمين جميع الإطارات.
حجم مجموعة البيانات : 130.02 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	343
`'train'`	2،238
`'validation'`	302

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / 480_640_only_frames_with_labels

وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع الإطارات التي تحتوي على ملصقات فقط.
حجم مجموعة البيانات : 26.27 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	343
`'train'`	2،238
`'validation'`	302

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / only_frames_with_labels

وصف التكوين : فقط الصور التي تحتوي على تسميات مضمنة بدقة أصلية.
حجم مجموعة البيانات : 6.91 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	343
`'train'`	2،238
`'validation'`	302

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / full_train_split

وصف التكوين : إصدار الدقة الكاملة لمجموعة البيانات ، مع تضمين جميع الإطارات ، بما في ذلك تلك التي لا تحتوي على ملصقات. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات : 26.09 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	200
`'train'`	1،838
`'validation'`	200

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / 480_640_full_train_split

وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع تضمين جميع الإطارات. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات : 101.57 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	200
`'train'`	1،838
`'validation'`	200

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / 480_640_only_frames_with_labels_train_split

وصف التكوين : يتم تغيير حجم جميع الصور بشكل ثنائي إلى 480 × 640 مع الإطارات التي تحتوي على ملصقات فقط. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات : 20.55 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	200
`'train'`	1،838
`'validation'`	200

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(480, 640, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(480, 640, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، 480 ، 640 ، 3)	uint8

أمثلة ( tfds.as_dataframe ):

youtube_vis / only_frames_with_labels_train_split

وصف التكوين : فقط الصور التي تحتوي على تسميات مضمنة بدقة أصلية. يتم تصنيع فتحات الصمام والاختبار من بيانات التدريب.
حجم مجموعة البيانات : 5.46 GiB
الانقسامات :

انشق، مزق	أمثلة
`'test'`	200
`'train'`	1،838
`'validation'`	200

هيكل الميزة :

FeaturesDict({
    'metadata': FeaturesDict({
        'height': int32,
        'num_frames': int32,
        'video_name': string,
        'width': int32,
    }),
    'tracks': Sequence({
        'areas': Sequence(float32),
        'bboxes': Sequence(BBoxFeature(shape=(4,), dtype=float32)),
        'category': ClassLabel(shape=(), dtype=int64, num_classes=40),
        'frames': Sequence(int32),
        'is_crowd': bool,
        'segmentations': Video(Image(shape=(None, None, 1), dtype=uint8)),
    }),
    'video': Video(Image(shape=(None, None, 3), dtype=uint8)),
})

وثائق الميزة :

ميزة	فصل	شكل	نوع
	الميزات
البيانات الوصفية	الميزات
البيانات الوصفية / الارتفاع	موتر		int32
البيانات الوصفية / عدد الإطارات	موتر		int32
البيانات الوصفية / اسم_الفيديو	موتر		سلسلة
البيانات الوصفية / العرض	موتر		int32
المسارات	تسلسل
المسارات / المناطق	تسلسل (موتر)	(لا أحد،)	تعويم 32
المسارات / bboxes	تسلسل (ميزة BBox)	(لا شيء ، 4)	تعويم 32
المسارات / الفئة	ClassLabel		int64
المسارات / الإطارات	تسلسل (موتر)	(لا أحد،)	int32
المسارات / is_crowd	موتر		منطقي
المسارات / التجزئة	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 1)	uint8
فيديو	فيديو (صورة)	(لا شيء ، لا شيء ، لا شيء ، 3)	uint8

أمثلة ( tfds.as_dataframe ):