- Açıklama :
D4RL, çevrimdışı pekiştirmeli öğrenme için açık kaynaklı bir kıyaslamadır. Eğitim ve kıyaslama algoritmaları için standartlaştırılmış ortamlar ve veri kümeleri sağlar.
Veri kümeleri, adımları ve bölümleri temsil etmek için RLDS biçimini takip eder.
Yapılandırma açıklaması : https://github.com/rail-berkeley/d4rl/wiki/Tasks#adroit adresinde görev ve sürümleri hakkında daha fazla ayrıntı görün
Ana sayfa : https://sites.google.com/view/d4rl/home
Kaynak kodu :
tfds.d4rl.d4rl_adroit_hammer.D4rlAdroitHammer
Sürümler :
-
1.0.0
: İlk sürüm. -
1.1.0
(varsayılan): is_last eklendi.
-
Denetimli anahtarlar (bkz
as_supervised
doc ):None
Şekil ( tfds.show_examples ): Desteklenmez.
alıntı :
@misc{fu2020d4rl,
title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
year={2020},
eprint={2004.07219},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
d4rl_adroit_hammer/v0-insan (varsayılan yapılandırma)
İndirme boyutu :
5.33 MiB
Veri kümesi boyutu :
6.10 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 70 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'qpos': Tensor(shape=(33,), dtype=tf.float32),
'qvel': Tensor(shape=(33,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(46,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (26,) | tf.float32 | |
adımlar/indirim | tensör | tf.float32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/qpos | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/qvel | tensör | (33,) | tf.float32 | |
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | tensör | (46,) | tf.float32 | |
adımlar/ödül | tensör | tf.float32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_hammer/v0-klonlanmış
İndirme boyutu :
644.69 MiB
Veri kümesi boyutu :
538.97 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 5.594 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=tf.float32),
'discount': tf.float64,
'infos': FeaturesDict({
'qpos': Tensor(shape=(33,), dtype=tf.float64),
'qvel': Tensor(shape=(33,), dtype=tf.float64),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(46,), dtype=tf.float64),
'reward': tf.float64,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (26,) | tf.float32 | |
adımlar/indirim | tensör | tf.float64 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/qpos | tensör | (33,) | tf.float64 | |
adımlar/bilgiler/qvel | tensör | (33,) | tf.float64 | |
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | tensör | (46,) | tf.float64 | |
adımlar/ödül | tensör | tf.float64 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_hammer/v0-uzmanı
İndirme boyutu :
529.91 MiB
Veri kümesi boyutu :
737.00 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 5.000 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_logstd': Tensor(shape=(26,), dtype=tf.float32),
'action_mean': Tensor(shape=(26,), dtype=tf.float32),
'qpos': Tensor(shape=(33,), dtype=tf.float32),
'qvel': Tensor(shape=(33,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(46,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (26,) | tf.float32 | |
adımlar/indirim | tensör | tf.float32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/action_logstd | tensör | (26,) | tf.float32 | |
adımlar/bilgiler/action_mean | tensör | (26,) | tf.float32 | |
adımlar/bilgiler/qpos | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/qvel | tensör | (33,) | tf.float32 | |
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | tensör | (46,) | tf.float32 | |
adımlar/ödül | tensör | tf.float32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_hammer/v1-insan
İndirme boyutu :
5.35 MiB
Veri kümesi boyutu :
6.34 MiB
Otomatik önbelleğe alınmış ( belgeler ): Evet
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 25 |
- Özellik yapısı :
FeaturesDict({
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'board_pos': Tensor(shape=(3,), dtype=tf.float32),
'qpos': Tensor(shape=(33,), dtype=tf.float32),
'qvel': Tensor(shape=(33,), dtype=tf.float32),
'target_pos': Tensor(shape=(3,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(46,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (26,) | tf.float32 | |
adımlar/indirim | tensör | tf.float32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/board_pos | tensör | (3,) | tf.float32 | |
adımlar/bilgiler/qpos | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/qvel | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/target_pos | tensör | (3,) | tf.float32 | |
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | tensör | (46,) | tf.float32 | |
adımlar/ödül | tensör | tf.float32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_hammer/v1-klonlanmış
İndirme boyutu :
425.93 MiB
Veri kümesi boyutu :
1.68 GiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 3.606 |
- Özellik yapısı :
FeaturesDict({
'algorithm': tf.string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(46, 256), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(256,), dtype=tf.float32),
'weight': Tensor(shape=(256, 256), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(26,), dtype=tf.float32),
'weight': Tensor(shape=(256, 26), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'board_pos': Tensor(shape=(3,), dtype=tf.float32),
'qpos': Tensor(shape=(33,), dtype=tf.float32),
'qvel': Tensor(shape=(33,), dtype=tf.float32),
'target_pos': Tensor(shape=(3,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(46,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
algoritma | tensör | tf.string | ||
politika | ÖzelliklerDict | |||
politika/fc0 | ÖzelliklerDict | |||
politika/fc0/önyargı | tensör | (256,) | tf.float32 | |
politika/fc0/ağırlık | tensör | (46, 256) | tf.float32 | |
politika/fc1 | ÖzelliklerDict | |||
politika/fc1/önyargı | tensör | (256,) | tf.float32 | |
politika/fc1/ağırlık | tensör | (256, 256) | tf.float32 | |
politika/last_fc | ÖzelliklerDict | |||
politika/last_fc/önyargı | tensör | (26,) | tf.float32 | |
politika/last_fc/ağırlık | tensör | (256, 26) | tf.float32 | |
politika/doğrusal olmama | tensör | tf.string | ||
politika/çıktı_dağıtım | tensör | tf.string | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (26,) | tf.float32 | |
adımlar/indirim | tensör | tf.float32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/board_pos | tensör | (3,) | tf.float32 | |
adımlar/bilgiler/qpos | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/qvel | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/target_pos | tensör | (3,) | tf.float32 | |
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | tensör | (46,) | tf.float32 | |
adımlar/ödül | tensör | tf.float32 |
- Örnekler ( tfds.as_dataframe ):
d4rl_adroit_hammer/v1-uzman
İndirme boyutu :
531.24 MiB
Veri kümesi boyutu :
843.54 MiB
Otomatik önbelleğe alınmış ( belgeler ): Hayır
Bölmeler :
Bölmek | Örnekler |
---|---|
'train' | 5.000 |
- Özellik yapısı :
FeaturesDict({
'algorithm': tf.string,
'policy': FeaturesDict({
'fc0': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=tf.float32),
'weight': Tensor(shape=(32, 46), dtype=tf.float32),
}),
'fc1': FeaturesDict({
'bias': Tensor(shape=(32,), dtype=tf.float32),
'weight': Tensor(shape=(32, 32), dtype=tf.float32),
}),
'last_fc': FeaturesDict({
'bias': Tensor(shape=(26,), dtype=tf.float32),
'weight': Tensor(shape=(26, 32), dtype=tf.float32),
}),
'last_fc_log_std': FeaturesDict({
'bias': Tensor(shape=(26,), dtype=tf.float32),
'weight': Tensor(shape=(26, 32), dtype=tf.float32),
}),
'nonlinearity': tf.string,
'output_distribution': tf.string,
}),
'steps': Dataset({
'action': Tensor(shape=(26,), dtype=tf.float32),
'discount': tf.float32,
'infos': FeaturesDict({
'action_log_std': Tensor(shape=(26,), dtype=tf.float32),
'action_mean': Tensor(shape=(26,), dtype=tf.float32),
'board_pos': Tensor(shape=(3,), dtype=tf.float32),
'qpos': Tensor(shape=(33,), dtype=tf.float32),
'qvel': Tensor(shape=(33,), dtype=tf.float32),
'target_pos': Tensor(shape=(3,), dtype=tf.float32),
}),
'is_first': tf.bool,
'is_last': tf.bool,
'is_terminal': tf.bool,
'observation': Tensor(shape=(46,), dtype=tf.float32),
'reward': tf.float32,
}),
})
- Özellik belgeleri :
Özellik | Sınıf | Şekil | Dtype | Tanım |
---|---|---|---|---|
ÖzelliklerDict | ||||
algoritma | tensör | tf.string | ||
politika | ÖzelliklerDict | |||
politika/fc0 | ÖzelliklerDict | |||
politika/fc0/önyargı | tensör | (32,) | tf.float32 | |
politika/fc0/ağırlık | tensör | (32, 46) | tf.float32 | |
politika/fc1 | ÖzelliklerDict | |||
politika/fc1/önyargı | tensör | (32,) | tf.float32 | |
politika/fc1/ağırlık | tensör | (32, 32) | tf.float32 | |
politika/last_fc | ÖzelliklerDict | |||
politika/last_fc/önyargı | tensör | (26,) | tf.float32 | |
politika/last_fc/ağırlık | tensör | (26, 32) | tf.float32 | |
politika/last_fc_log_std | ÖzelliklerDict | |||
politika/last_fc_log_std/önyargı | tensör | (26,) | tf.float32 | |
politika/last_fc_log_std/ağırlık | tensör | (26, 32) | tf.float32 | |
politika/doğrusal olmama | tensör | tf.string | ||
politika/çıktı_dağıtım | tensör | tf.string | ||
adımlar | veri kümesi | |||
adımlar/eylem | tensör | (26,) | tf.float32 | |
adımlar/indirim | tensör | tf.float32 | ||
adımlar/bilgiler | ÖzelliklerDict | |||
adımlar/bilgiler/action_log_std | tensör | (26,) | tf.float32 | |
adımlar/bilgiler/action_mean | tensör | (26,) | tf.float32 | |
adımlar/bilgiler/board_pos | tensör | (3,) | tf.float32 | |
adımlar/bilgiler/qpos | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/qvel | tensör | (33,) | tf.float32 | |
adımlar/bilgiler/target_pos | tensör | (3,) | tf.float32 | |
adımlar/is_first | tensör | tf.bool | ||
adımlar/is_last | tensör | tf.bool | ||
adımlar/is_terminal | tensör | tf.bool | ||
adımlar/gözlem | tensör | (46,) | tf.float32 | |
adımlar/ödül | tensör | tf.float32 |
- Örnekler ( tfds.as_dataframe ):