bc_z

  • Sự miêu tả :

Robot Google được điều khiển từ xa chủ yếu thực hiện việc chọn địa điểm từ bàn

Tách ra Ví dụ
'train' 39.350
'val' 3.914
  • Cấu trúc tính năng :
FeaturesDict({
    'steps': Dataset({
        'action': FeaturesDict({
            'future/axis_angle_residual': Tensor(shape=(30,), dtype=float32),
            'future/target_close': Tensor(shape=(10,), dtype=int64),
            'future/xyz_residual': Tensor(shape=(30,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': FeaturesDict({
            'episode_success': float32,
            'image': Image(shape=(171, 213, 3), dtype=uint8),
            'natural_language_embedding': Tensor(shape=(512,), dtype=float32),
            'natural_language_instruction': string,
            'present/autonomous': int64,
            'present/axis_angle': Tensor(shape=(3,), dtype=float32),
            'present/intervention': int64,
            'present/sensed_close': Tensor(shape=(1,), dtype=float32),
            'present/xyz': Tensor(shape=(3,), dtype=float32),
            'sequence_length': int64,
        }),
        'reward': Scalar(shape=(), dtype=float32),
    }),
})
  • Tài liệu tính năng :
Tính năng Lớp học Hình dạng loại D Sự miêu tả
Tính năngDict
bước Tập dữ liệu
bước/hành động Tính năngDict
bước/hành động/tương lai/axis_angle_residual Tenxơ (30,) phao32 10 hành động tiếp theo cho vòng quay. Mỗi hành động là một hình tam giác 3D để thêm vào góc trục hiện tại.
bước/hành động/tương lai/target_close Tenxơ (10,) int64 10 hành động tiếp theo dành cho tay kẹp. Mỗi hành động là giá trị mà phần đóng kẹp phải được thay đổi thành (đáng chú ý là nó không phải là delta.)
bước/hành động/tương lai/xyz_residual Tenxơ (30,) phao32 10 hành động tiếp theo cho các vị trí. Mỗi hành động là một vùng đồng bằng 3D để thêm vào vị trí hiện tại.
bước/is_first Tenxơ bool
bước/is_last Tenxơ bool
bước/is_terminal Tenxơ bool
bước/quan sát Tính năngDict
bước/quan sát/tập_thành công Tenxơ phao32 Nhãn thành công 0-1
bước/quan sát/hình ảnh Hình ảnh (171, 213, 3) uint8 Hình ảnh camera của robot, được lấy mẫu xuống 3x
các bước/quan sát/tự nhiên_ngôn ngữ_embedding Tenxơ (512,) phao32 Việc nhúng tác vụ thông qua Bộ mã hóa câu phổ quát ( https://tfhub.dev/google/universal-sentence-encoding/4 )
các bước/quan sát/tự nhiên_ngôn ngữ_hướng dẫn Tenxơ sợi dây Nhiệm vụ mà robot được yêu cầu thực hiện.
bước/quan sát/hiện tại/tự chủ Tenxơ int64 Các tập phim được thu thập thông qua DAgger. Đây là nhãn 0/1 cho biết hành động đó là từ chính sách hay từ nhà điều hành từ xa. 1 = từ chính sách.
bước/quan sát/hiện tại/axis_angle Tenxơ (3,) phao32 Vòng quay hiện tại của bộ phận tác động cuối trong biểu diễn góc trục.
bước/quan sát/hiện tại/can thiệp Tenxơ int64 Các tập phim được thu thập thông qua DAgger. Đây là nhãn 0/1 cho biết hành động đó là từ chính sách hay từ nhà điều hành từ xa. 1 = từ máy điều khiển từ xa. Điều này hoàn toàn trái ngược với hiện tại/tự chủ
bước/quan sát/hiện tại/cảm nhận_đóng Tenxơ (1,) phao32 Bộ kẹp hiện đang đóng bao nhiêu. Được chia tỷ lệ từ 0 đến 1, nhưng không phải tất cả các giá trị từ 0 đến 1 đều có thể truy cập được. Phạm vi trong dữ liệu là khoảng 0,2 đến 1
bước/quan sát/hiện tại/xyz Tenxơ (3,) phao32 Vị trí hiện tại của bộ phận tác động cuối trong biểu diễn góc trục, trong khung robot
bước/quan sát/sequence_length Tenxơ int64 Độ dài của tập phim
bước/phần thưởng Vô hướng phao32
  • Trích dẫn :
@inproceedings{jang2021bc,
title={ {BC}-Z: Zero-Shot Task Generalization with Robotic Imitation Learning},
author={Eric Jang and Alex Irpan and Mohi Khansari and Daniel Kappler and Frederik Ebert and Corey Lynch and Sergey Levine and Chelsea Finn},
booktitle={5th Annual Conference on Robot Learning},
year={2021},
url={https://openreview.net/forum?id=8kbp23tSGYv} }