플릭

논문에서: 우리는 인기 할리우드 영화에서 자동으로 5003개의 이미지 데이터 세트를 수집했습니다. 이미지는 30편의 영화의 10번째 프레임마다 최신 사람 감지기를 실행하여 얻었습니다. 높은 신뢰도로 감지된 사람들(약 20,000명의 후보)은 크라우드소싱 시장인 Amazon Mechanical Turk로 보내져 groundtruthlabeling을 받았습니다. 각 이미지는 10개의 상체 관절에 레이블을 지정하기 위해 각각 $0.01에 5명의 Turkers가 주석을 달았습니다. 중앙값 5 라벨링은 각 이미지에서 특이치 주석에 강건하도록 취해졌습니다. 마지막으로, 사람이 가려지거나 심하게 비정면인 경우 수동으로 이미지를 거부했습니다. 테스트를 위해 데이터의 20%(1016개 이미지)를 따로 둡니다.

나뉘다
'test' 1,016
'train' 3,987
  • 기능 구조 :
FeaturesDict({
    'currframe': float64,
    'image': Image(shape=(480, 720, 3), dtype=uint8),
    'moviename': Text(shape=(), dtype=string),
    'poselet_hit_idx': Sequence(uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=float32),
    'xcoords': Sequence(float64),
    'ycoords': Sequence(float64),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
커프프레임 텐서 float64
영상 영상 (480, 720, 3) uint8
영화 이름 텍스트
poselet_hit_idx 시퀀스(텐서) (없음,) uint16
토르소박스 BBox기능 (4,) float32
xcoords 시퀀스(텐서) (없음,) float64
ycoords 시퀀스(텐서) (없음,) float64
@inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }

flic/small(기본 구성)

  • 구성 설명 : CVPR13 MODEC 논문에 사용된 5003개의 예제를 사용합니다.

  • 다운로드 크기 : 286.35 MiB

  • 그림 ( tfds.show_examples ):

심상

플릭/풀

  • 구성 설명 : 더 어려운 예제로 구성된 FLIC의 상위 집합인 20928개의 예제를 사용합니다.

  • 다운로드 크기 : 1.10 GiB

  • 그림 ( tfds.show_examples ):

심상