운동

  • 설명 :

데이터 세트는 MuJoCo 이동 작업의 환경 보상에 대해 훈련된 SAC 에이전트로 생성되었습니다. 이러한 데이터 세트는 적대적 모방 학습에 중요한 사항은 무엇입니까? Orsiniet al. 2021년 .

데이터 세트는 RLDS 형식 을 따라 단계와 에피소드를 나타냅니다.

@article{orsini2021matters,
  title={What Matters for Adversarial Imitation Learning?},
  author={Orsini, Manu and Raichuk, Anton and Hussenot, L{'e}onard and Vincent, Damien and Dadashi, Robert and Girgin, Sertan and Geist, Matthieu and Bachem, Olivier and Pietquin, Olivier and Andrychowicz, Marcin},
  journal={International Conference in Machine Learning},
  year={2021}
}

locomotion/ant_sac_1M_single_policy_stochastic(기본 구성)

  • 구성 설명 : Ant용 1M 단계에 대해 훈련된 SAC 에이전트가 생성한 데이터 세트입니다.

  • 다운로드 크기 : 6.49 MiB

  • 데이터 세트 크기 : 23.02 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 50
  • 기능 구조 :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
단계 데이터 세트
단계/액션 텐서 (8,) float32
단계/할인 텐서 float32
단계/is_first 텐서 부울
단계/is_last 텐서 부울
단계/is_terminal 텐서 부울
단계/관찰 텐서 (111,) float32
단계/보상 텐서 float32

운동/hopper_sac_1M_single_policy_stochastic

  • 구성 설명 : Hopper에 대해 1M 단계에 대해 훈련된 SAC 에이전트가 생성한 데이터 세트입니다.

  • 다운로드 크기 : 2.26 MiB

  • 데이터 세트 크기 : 2.62 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 50
  • 기능 구조 :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(3,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(11,), dtype=float32),
        'reward': float32,
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
단계 데이터 세트
단계/액션 텐서 (삼,) float32
단계/할인 텐서 float32
단계/is_first 텐서 부울
단계/is_last 텐서 부울
단계/is_terminal 텐서 부울
단계/관찰 텐서 (11,) float32
단계/보상 텐서 float32

운동/halfcheetah_sac_1M_single_policy_stochastic

  • 구성 설명 : HalfCheetah에 대해 1M 단계에 대해 훈련된 SAC 에이전트가 생성한 데이터 세트입니다.

  • 다운로드 크기 : 4.49 MiB

  • 데이터 세트 크기 : 4.93 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 50
  • 기능 구조 :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
단계 데이터 세트
단계/액션 텐서 (6,) float32
단계/할인 텐서 float32
단계/is_first 텐서 부울
단계/is_last 텐서 부울
단계/is_terminal 텐서 부울
단계/관찰 텐서 (17,) float32
단계/보상 텐서 float32

운동/walker2d_sac_1M_single_policy_stochastic

  • 구성 설명 : Walker2d에 대해 1M 단계에 대해 훈련된 SAC 에이전트가 생성한 데이터 세트입니다.

  • 다운로드 크기 : 4.35 MiB

  • 데이터 세트 크기 : 4.91 MiB

  • 자동 캐시 ( 문서 ): 예

  • 분할 :

나뉘다
'train' 50
  • 기능 구조 :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(6,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(17,), dtype=float32),
        'reward': float32,
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
단계 데이터 세트
단계/액션 텐서 (6,) float32
단계/할인 텐서 float32
단계/is_first 텐서 부울
단계/is_last 텐서 부울
단계/is_terminal 텐서 부울
단계/관찰 텐서 (17,) float32
단계/보상 텐서 float32

운동/humanoid_sac_15M_single_policy_stochastic

  • 구성 설명 : Humanoid용 1,500만 단계에 대해 훈련된 SAC 에이전트가 생성한 데이터 세트입니다.

  • 다운로드 크기 : 192.78 MiB

  • 데이터 세트 크기 : 300.94 MiB

  • 자동 캐시 ( 문서 ): 아니요

  • 분할 :

나뉘다
'train' 200
  • 기능 구조 :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(17,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(376,), dtype=float32),
        'reward': float32,
    }),
})
  • 기능 문서 :
특징 수업 모양 D타입 설명
풍모Dict
단계 데이터 세트
단계/액션 텐서 (17,) float32
단계/할인 텐서 float32
단계/is_first 텐서 부울
단계/is_last 텐서 부울
단계/is_terminal 텐서 부울
단계/관찰 텐서 (376,) float32
단계/보상 텐서 float32