تلنگر

از مقاله: ما یک مجموعه داده تصویری 5003 را به طور خودکار از فیلم های محبوب هالیوود جمع آوری کردیم. این تصاویر با اجرای یک آشکارساز شخص پیشرفته بر روی هر دهم فریم از 30 فیلم به دست آمد. افرادی که با اطمینان بالا شناسایی شدند (تقریباً 20 هزار نامزد) سپس به بازار جمع سپاری آمازون مکانیکال ترک فرستاده شدند تا برچسب حقایق زمینی را دریافت کنند. هر تصویر توسط پنج ترک با قیمت 0.01 دلار برای برچسب گذاری 10 مفصل بالاتنه حاشیه نویسی شد. میانه پنج برچسب گذاری در هر تصویر گرفته شد تا به حاشیه نویسی پرت قوی باشد. در نهایت، اگر فرد مسدود شده بود یا به شدت غیر پیشانی بود، تصاویر به صورت دستی توسط ما رد می شد. ما 20٪ (1016 تصویر) از داده ها را برای آزمایش کنار گذاشتیم.

شکاف مثال ها
'test' 1,016
'train' 3,987
  • ساختار ویژگی :
FeaturesDict({
    'currframe': float64,
    'image': Image(shape=(480, 720, 3), dtype=uint8),
    'moviename': Text(shape=(), dtype=string),
    'poselet_hit_idx': Sequence(uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=float32),
    'xcoords': Sequence(float64),
    'ycoords': Sequence(float64),
})
  • مستندات ویژگی :
ویژگی کلاس شکل نوع D شرح
FeaturesDict
چارچوب تانسور float64
تصویر تصویر (480، 720، 3) uint8
نام فیلم متن رشته
poselet_hit_idx دنباله (تنسور) (هیچ یک،) uint16
نیم تنه ویژگی BBox (4،) float32
xcoords دنباله (تنسور) (هیچ یک،) float64
ycoords دنباله (تنسور) (هیچ یک،) float64
  • کلیدهای نظارت شده (به as_supervised doc مراجعه کنید): None

  • نقل قول :

@inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }

flic/small (پیکربندی پیش فرض)

  • توضیحات پیکربندی : از 5003 نمونه استفاده شده در کاغذ CVPR13 MODEC استفاده می کند.

  • حجم دانلود : 286.35 MiB

  • شکل ( tfds.show_examples ):

تجسم

تلنگر/پر

  • توضیحات پیکربندی : از 20928 مثال استفاده می‌کند، مجموعه‌ای از FLIC که از نمونه‌های دشوارتری تشکیل شده است.

  • حجم دانلود : 1.10 GiB

  • شکل ( tfds.show_examples ):

تجسم