フリック

論文から: 人気のあるハリウッド映画から 5003 枚の画像データセットを自動的に収集しました。画像は、最新の人物検出器を 30 本の映画の 10 フレームごとに実行することによって取得されました。高い信頼性で検出された人々 (約 20,000 人の候補) は、クラウドソーシング マーケットプレイス Amazon Mechanical Turk に送られ、グラウンドトゥルース ラベルが付けられました。各画像には 5 人の Turkers がそれぞれ 0.01 ドルで注釈を付け、上半身の 10 の関節にラベルを付けました。外れ値の注釈に対して堅牢になるように、各画像で中央値の 5 つのラベル付けが行われました。最後に、人が遮られているか、ひどく正面から見えていない場合、画像は手動で拒否されました.テスト用にデータの 20% (1016 画像) を取っておきます。

スプリット
'test' 1,016
'train' 3,987
  • 機能構造:
FeaturesDict({
    'currframe': float64,
    'image': Image(shape=(480, 720, 3), dtype=uint8),
    'moviename': Text(shape=(), dtype=string),
    'poselet_hit_idx': Sequence(uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=float32),
    'xcoords': Sequence(float64),
    'ycoords': Sequence(float64),
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
通貨フレームテンソルfloat64
画像画像(480、720、3) uint8
映画名文章ストリング
poselet_hit_idxシーケンス(テンソル) (なし、) uint16
トルソボックスBBoxFeature (4) float32
x座標シーケンス(テンソル) (なし、) float64
座標シーケンス(テンソル) (なし、) float64
@inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }

flic/small (デフォルト設定)

  • 構成の説明: CVPR13 MODEC 論文で使用されている 5003 の例を使用します。

  • ダウンロードサイズ: 286.35 MiB

  • ( tfds.show_examples ):

視覚化

フリック/フル

  • 構成の説明: 20928 の例を使用します。これは、より難しい例で構成される FLIC のスーパーセットです。

  • ダウンロードサイズ: 1.10 GiB

  • ( tfds.show_examples ):

視覚化