bc_z

  • 説明

ほとんどの場合テーブルからピックプレイスを行う遠隔操作の Google ロボット

スプリット
'train' 39,350
'val' 3,914
  • 機能の構造:
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32),
            'future/target_close': Tensor(shape=(10,), dtype=int64),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32),
            'present/xyz': Tensor(shape=(3,), dtype=float32),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • 機能ドキュメント:
特徴クラスDタイプ説明
特徴辞書
ステップデータセット
ステップ/アクション特徴辞書
ステップ/アクション/未来/axis_angle_residualテンソル(30,) float32ローテーションの次の 10 アクション。各アクションは、現在の軸角度に追加される 3D デルタです。
ステップ/アクション/将来/ターゲット_クローズテンソル(10,) int64グリッパーの次の 10 アクション。各アクションは、グリッパー クロージャを変更する必要がある値です (特に、これはデルタではありません)。
ステップ/アクション/将来/xyz_residualテンソル(30,) float32ポジションに対する次の 10 のアクション。各アクションは、現在の位置に追加される 3D デルタです。
ステップ/is_firstテンソルブール
ステップ/is_lastテンソルブール
ステップ/is_terminalテンソルブール
ステップ/観察特徴辞書
ステップ/観察/エピソード_成功テンソルfloat32 0-1 の成功ラベル
手順・観察・イメージ画像(171, 213, 3) uint8ロボットのカメラ画像、3 倍ダウンサンプリング
ステップ/観察/natural_lang_embeddingテンソル(512,) float32 Universal Sentence Encoder を介したタスクの埋め込み ( https://tfhub.dev/google/universal-sentence-encoder/4 )
ステップ/観察/natural_ language_instructionテンソルロボットに依頼されたタスク。
ステップ/観察/現在/自律テンソルint64エピソードは DAgger 経由で収集されます。これは、アクションがポリシーによるものであるか、遠隔操作者によるものであるかを表す 0/1 のラベルです。 1 = ポリシーによる。
歩数/観察/現在/axis_angleテンソル(3,) float32軸角度表現でのエンドエフェクタの現在の回転。
ステップ/観察/現在/介入テンソルint64エピソードは DAgger 経由で収集されます。これは、アクションがポリシーによるものであるか、遠隔操作者によるものであるかを表す 0/1 のラベルです。 1 = 遠隔操作者から。これは現在/自律性の正反対です。
ステップ/観察/現在/sensed_closeテンソル(1,) float32グリッパーが現在どのくらい閉じているか。 0 から 1 までスケールされますが、0 から 1 までのすべての値に到達できるわけではありません。データの範囲は約 0.2 ~ 1 です。
歩数/観察/現在/xyzテンソル(3,) float32ロボットフレーム内の軸角度表現でのエンドエフェクタの現在位置
ステップ/観察/sequence_lengthテンソルint64エピソードの長さ
歩数/報酬スカラーfloat32
  • 引用
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }