d4rl_adroit_pen

  • Açıklama :

D4RL, çevrimdışı pekiştirmeli öğrenme için açık kaynaklı bir kıyaslamadır. Eğitim ve kıyaslama algoritmaları için standartlaştırılmış ortamlar ve veri kümeleri sağlar.

Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini takip eder.

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_adroit_pen/v0-human (varsayılan yapılandırma)

Bölmek Örnekler
'train' 50
  • Özellik yapısı :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=tf.float32),
            'qvel': Tensor(shape=(30,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(45,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
adımlar veri kümesi
adımlar/eylem tensör (24,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/bilgiler ÖzelliklerDict
adımlar/bilgiler/qpos tensör (30,) tf.float32
adımlar/bilgiler/qvel tensör (30,) tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem tensör (45,) tf.float32
adımlar/ödül tensör tf.float32

d4rl_adroit_pen/v0-klonlanmış

Bölmek Örnekler
'train' 5.023
  • Özellik yapısı :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=tf.float32),
        'discount': tf.float64,
        'infos': FeaturesDict({
            'qpos': Tensor(shape=(30,), dtype=tf.float64),
            'qvel': Tensor(shape=(30,), dtype=tf.float64),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(45,), dtype=tf.float64),
        'reward': tf.float64,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
adımlar veri kümesi
adımlar/eylem tensör (24,) tf.float32
adımlar/indirim tensör tf.float64
adımlar/bilgiler ÖzelliklerDict
adımlar/bilgiler/qpos tensör (30,) tf.float64
adımlar/bilgiler/qvel tensör (30,) tf.float64
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem tensör (45,) tf.float64
adımlar/ödül tensör tf.float64

d4rl_adroit_pen/v0-uzmanı

Bölmek Örnekler
'train' 5.000
  • Özellik yapısı :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_logstd': Tensor(shape=(24,), dtype=tf.float32),
            'action_mean': Tensor(shape=(24,), dtype=tf.float32),
            'qpos': Tensor(shape=(30,), dtype=tf.float32),
            'qvel': Tensor(shape=(30,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(45,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
adımlar veri kümesi
adımlar/eylem tensör (24,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/bilgiler ÖzelliklerDict
adımlar/bilgiler/action_logstd tensör (24,) tf.float32
adımlar/bilgiler/action_mean tensör (24,) tf.float32
adımlar/bilgiler/qpos tensör (30,) tf.float32
adımlar/bilgiler/qvel tensör (30,) tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem tensör (45,) tf.float32
adımlar/ödül tensör tf.float32

d4rl_adroit_pen/v1-insan

Bölmek Örnekler
'train' 25
  • Özellik yapısı :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=tf.float32),
            'qpos': Tensor(shape=(30,), dtype=tf.float32),
            'qvel': Tensor(shape=(30,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(45,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
adımlar veri kümesi
adımlar/eylem tensör (24,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/bilgiler ÖzelliklerDict
adımlar/bilgiler/arzu edilen_orien tensör (4,) tf.float32
adımlar/bilgiler/qpos tensör (30,) tf.float32
adımlar/bilgiler/qvel tensör (30,) tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem tensör (45,) tf.float32
adımlar/ödül tensör tf.float32

d4rl_adroit_pen/v1-klonlanmış

Bölmek Örnekler
'train' 3.755
  • Özellik yapısı :
FeaturesDict({
    'algorithm': tf.string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(45, 256), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 256), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=tf.float32),
            'weight': Tensor(shape=(256, 24), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'desired_orien': Tensor(shape=(4,), dtype=tf.float32),
            'qpos': Tensor(shape=(30,), dtype=tf.float32),
            'qvel': Tensor(shape=(30,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(45,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
algoritma tensör tf.string
politika ÖzelliklerDict
politika/fc0 ÖzelliklerDict
politika/fc0/önyargı tensör (256,) tf.float32
politika/fc0/ağırlık tensör (45, 256) tf.float32
politika/fc1 ÖzelliklerDict
politika/fc1/önyargı tensör (256,) tf.float32
politika/fc1/ağırlık tensör (256, 256) tf.float32
politika/last_fc ÖzelliklerDict
politika/last_fc/önyargı tensör (24,) tf.float32
politika/last_fc/ağırlık tensör (256, 24) tf.float32
politika/doğrusal olmama tensör tf.string
politika/çıktı_dağıtım tensör tf.string
adımlar veri kümesi
adımlar/eylem tensör (24,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/bilgiler ÖzelliklerDict
adımlar/bilgiler/arzu edilen_orien tensör (4,) tf.float32
adımlar/bilgiler/qpos tensör (30,) tf.float32
adımlar/bilgiler/qvel tensör (30,) tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem tensör (45,) tf.float32
adımlar/ödül tensör tf.float32

d4rl_adroit_pen/v1-uzman

  • İndirme boyutu : 249.90 MiB

  • Veri kümesi boyutu : 548.47 MiB

  • Otomatik önbelleğe alınmış ( belgeler ): Hayır

  • Bölmeler :

Bölmek Örnekler
'train' 5.000
  • Özellik yapısı :
FeaturesDict({
    'algorithm': tf.string,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=tf.float32),
            'weight': Tensor(shape=(64, 45), dtype=tf.float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(64,), dtype=tf.float32),
            'weight': Tensor(shape=(64, 64), dtype=tf.float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=tf.float32),
            'weight': Tensor(shape=(24, 64), dtype=tf.float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(24,), dtype=tf.float32),
            'weight': Tensor(shape=(24, 64), dtype=tf.float32),
        }),
        'nonlinearity': tf.string,
        'output_distribution': tf.string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(24,), dtype=tf.float32),
        'discount': tf.float32,
        'infos': FeaturesDict({
            'action_log_std': Tensor(shape=(24,), dtype=tf.float32),
            'action_mean': Tensor(shape=(24,), dtype=tf.float32),
            'desired_orien': Tensor(shape=(4,), dtype=tf.float32),
            'qpos': Tensor(shape=(30,), dtype=tf.float32),
            'qvel': Tensor(shape=(30,), dtype=tf.float32),
        }),
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': Tensor(shape=(45,), dtype=tf.float32),
        'reward': tf.float32,
    }),
})
  • Özellik belgeleri :
Özellik Sınıf Şekil Dtype Tanım
ÖzelliklerDict
algoritma tensör tf.string
politika ÖzelliklerDict
politika/fc0 ÖzelliklerDict
politika/fc0/önyargı tensör (64,) tf.float32
politika/fc0/ağırlık tensör (64, 45) tf.float32
politika/fc1 ÖzelliklerDict
politika/fc1/önyargı tensör (64,) tf.float32
politika/fc1/ağırlık tensör (64, 64) tf.float32
politika/last_fc ÖzelliklerDict
politika/last_fc/önyargı tensör (24,) tf.float32
politika/last_fc/ağırlık tensör (24, 64) tf.float32
politika/last_fc_log_std ÖzelliklerDict
politika/last_fc_log_std/önyargı tensör (24,) tf.float32
politika/last_fc_log_std/ağırlık tensör (24, 64) tf.float32
politika/doğrusal olmama tensör tf.string
politika/çıktı_dağıtım tensör tf.string
adımlar veri kümesi
adımlar/eylem tensör (24,) tf.float32
adımlar/indirim tensör tf.float32
adımlar/bilgiler ÖzelliklerDict
adımlar/bilgiler/action_log_std tensör (24,) tf.float32
adımlar/bilgiler/action_mean tensör (24,) tf.float32
adımlar/bilgiler/arzu edilen_orien tensör (4,) tf.float32
adımlar/bilgiler/qpos tensör (30,) tf.float32
adımlar/bilgiler/qvel tensör (30,) tf.float32
adımlar/is_first tensör tf.bool
adımlar/is_last tensör tf.bool
adımlar/is_terminal tensör tf.bool
adımlar/gözlem tensör (45,) tf.float32
adımlar/ödül tensör tf.float32