このページは Cloud Translation API によって翻訳されました。
Switch to English

フリック

  • 説明

論文より:人気のハリウッド映画から自動的に5003の画像データセットを収集しました。画像は、30本の映画の10フレームごとに最先端の人検出器を実行することによって取得されました。高い信頼度で検出された人々(およそ2万人の候補者)は、クラウドソーシングマーケットプレイスのAmazon Mechanical Turkに送られ、グラウンドトゥルースラベリングが取得されました。それぞれの画像には、5人のTurkerがそれぞれ$ 0.01で注釈を付け、10個の上半身のジョイントにラベルを付けました。各画像で中央値5のラベリングが行われ、外れ値の注釈にロバストになりました。最後に、その人が閉塞されていたり、正面を向いていない場合、画像は手動で拒否されました。テスト用にデータの20%(1016画像)を確保しました。

スプリット
'test' 1,016
'train' 3,987
  • 特徴
 FeaturesDict({
    'currframe': tf.float64,
    'image': Image(shape=(480, 720, 3), dtype=tf.uint8),
    'moviename': Text(shape=(), dtype=tf.string),
    'poselet_hit_idx': Sequence(tf.uint16),
    'torsobox': BBoxFeature(shape=(4,), dtype=tf.float32),
    'xcoords': Sequence(tf.float64),
    'ycoords': Sequence(tf.float64),
})
 
 @inproceedings{modec13,
    title={MODEC: Multimodal Decomposable Models for Human Pose Estimation},
    author={Sapp, Benjamin and Taskar, Ben},
    booktitle={In Proc. CVPR},
    year={2013},
  }
 

flic / small(デフォルト設定)

  • 構成の説明 :CVPR13 MODECペーパーで使用されている5003の例を使用します。

  • ダウンロードサイズ286.35 MiB

  • 視覚化tfds.show_examples ):

可視化

フリック/フル

  • 構成の説明 :20928の例を使用します。これは、より難しい例で構成されるFLICのスーパーセットです。

  • ダウンロードサイズ1.10 GiB

  • 視覚化tfds.show_examples ):

可視化