symmetric_solids

  • 説明

これは、複数の方向が視覚的に区別できない対称3D形状で構成されるポーズ推定データセットです。課題は、トレーニング中に1つの方向のみが各画像とペアになっている場合に、すべての同等の方向を予測することです(ほとんどのポーズ推定データセットのシナリオと同様)。ほとんどのポーズ推定データセットとは対照的に、同等の方向のフルセットが評価に利用できます。

合計8つの形状があり、それぞれが3D回転の全空間にランダムに均一に分散された50,000の視点からレンダリングされます。四面体、立方体、二十面体、円錐、円柱の5つの形状には特徴がありません。これらのうち、3つの正多面体(四面体、立方体、二十面体)には、それぞれ12倍、24倍、および60倍の離散対称性の注釈が付けられています。円錐と円柱には、1度間隔で離散化された連続対称性の注釈が付けられています。これらの対称性は評価のために提供されています。意図された監視は、各画像での1回の回転のみです。

残りの3つの形状には、特徴的な機能が付いています。 1つの赤い面を持つ四面体、中心から外れたドットを持つ円柱、およびドットで覆われたXを持つ球があります。特徴的な機能が表示されているかどうかに関係なく、可能な方向のスペースが削減されます。これらの形状に相当する回転のセットは提供していません。

各例には、

  • 224x224RGB画像
  • データセットを形状でフィルタリングできるようにするための形状インデックス。
    インデックスは以下に対応します。

    • 0 =四面体
    • 1 =立方体
    • 2 =二十面体
    • 3 =コーン
    • 4 =シリンダー
    • 5 =マークされた四面体
    • 6 =マークされたシリンダー
    • 7 =マークされた球
  • レンダリングプロセスで使用される回転。3x3の回転行列として表されます。

  • 評価のための、対称性の下での既知の等価回転のセット。

マークされた3つの形状の場合、これはレンダリングの回転のみです。

スプリット
'test' 40,000
'train' 360,000
  • 特長
FeaturesDict({
    'image': Image(shape=(224, 224, 3), dtype=tf.uint8),
    'label_shape': ClassLabel(shape=(), dtype=tf.int64, num_classes=8),
    'rotation': Tensor(shape=(3, 3), dtype=tf.float32),
    'rotations_equivalent': Tensor(shape=(None, 3, 3), dtype=tf.float32),
})

視覚化

  • 引用
@inproceedings{implicitpdf2021,
  title = {Implicit Representation of Probability Distributions on the Rotation
  Manifold},
  author = {Murphy, Kieran and Esteves, Carlos and Jampani, Varun and
  Ramalingam, Srikumar and Makadia, Ameesh}
  booktitle = {International Conference on Machine Learning}
  year = {2021}
}