d4rl_mujoco_ant

  • বর্ণনা :

D4RL অফলাইন রিইনফোর্সমেন্ট শেখার জন্য একটি ওপেন সোর্স বেঞ্চমার্ক। এটি প্রশিক্ষণ এবং বেঞ্চমার্কিং অ্যালগরিদমের জন্য মানসম্মত পরিবেশ এবং ডেটাসেট সরবরাহ করে।

ডেটাসেটগুলি ধাপ এবং পর্বগুলি উপস্থাপন করতে RLDS বিন্যাস অনুসরণ করে।

@misc{fu2020d4rl,
    title={D4RL: Datasets for Deep Data-Driven Reinforcement Learning},
    author={Justin Fu and Aviral Kumar and Ofir Nachum and George Tucker and Sergey Levine},
    year={2020},
    eprint={2004.07219},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

d4rl_mujoco_ant/v0-expert (ডিফল্ট কনফিগারেশন)

  • ডাউনলোড সাইজ : 131.34 MiB

  • ডেটাসেটের আকার : 464.94 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,288
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v0-মাধ্যম

  • ডাউনলোড সাইজ : 131.39 MiB

  • ডেটাসেটের আকার : 464.78 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,122
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v0-মাধ্যম-বিশেষজ্ঞ

  • ডাউনলোড সাইজ : 262.73 MiB

  • ডেটাসেটের আকার : 929.71 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2,410
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v0-মিশ্রিত

  • ডাউনলোডের আকার : 104.63 MiB

  • ডেটাসেটের আকার : 464.93 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,320
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v0-এলোমেলো

  • ডাউনলোড আকার : 139.50 MiB

  • ডেটাসেটের আকার : 464.97 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,377
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v1-বিশেষজ্ঞ

  • ডাউনলোড সাইজ : 220.72 MiB

  • ডেটাসেটের আকার : 968.63 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,033
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
নীতি ফিচারসডিক্ট
নীতি/fc0 ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত টেনসর (256,) float32
নীতি/fc0/ওজন টেনসর (256, 111) float32
নীতি/fc1 ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত টেনসর (256,) float32
নীতি/fc1/ওজন টেনসর (256, 256) float32
নীতি/লাস্ট_এফসি ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত টেনসর (8,) float32
নীতি/লাস্ট_এফসি/ওজন টেনসর (৮, ২৫৬) float32
নীতি/last_fc_log_std ফিচারসডিক্ট
নীতি/last_fc_log_std/bias টেনসর (8,) float32
নীতি/last_fc_log_std/ওজন টেনসর (৮, ২৫৬) float32
নীতি/অরৈখিকতা টেনসর স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন টেনসর স্ট্রিং
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float32
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float32
পদক্ষেপ/infos/qvel টেনসর (14,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v1-মাধ্যম

  • ডাউনলোড সাইজ : 222.39 MiB

  • ডেটাসেটের আকার : 1023.71 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,179
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
নীতি ফিচারসডিক্ট
নীতি/fc0 ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত টেনসর (256,) float32
নীতি/fc0/ওজন টেনসর (256, 111) float32
নীতি/fc1 ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত টেনসর (256,) float32
নীতি/fc1/ওজন টেনসর (256, 256) float32
নীতি/লাস্ট_এফসি ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত টেনসর (8,) float32
নীতি/লাস্ট_এফসি/ওজন টেনসর (৮, ২৫৬) float32
নীতি/last_fc_log_std ফিচারসডিক্ট
নীতি/last_fc_log_std/bias টেনসর (8,) float32
নীতি/last_fc_log_std/ওজন টেনসর (৮, ২৫৬) float32
নীতি/অরৈখিকতা টেনসর স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন টেনসর স্ট্রিং
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float32
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float32
পদক্ষেপ/infos/qvel টেনসর (14,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v1-মাঝারি-বিশেষজ্ঞ

  • ডাউনলোড 442.25 MiB

  • ডেটাসেটের আকার : 1.13 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2,211
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float32
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float32
পদক্ষেপ/infos/qvel টেনসর (14,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v1-মাঝারি-রিপ্লে

  • ডাউনলোড আকার : 132.05 MiB

  • ডেটাসেটের আকার : 175.27 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 485
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float64),
        'reward': float64,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float64
পদক্ষেপ/ছাড় টেনসর float64
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float64
পদক্ষেপ/পুরস্কার টেনসর float64

d4rl_mujoco_ant/v1-পূর্ণ-রিপ্লে

  • ডাউনলোড সাইজ : 437.57 MiB

  • ডেটাসেটের আকার : 580.09 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,319
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float64),
        'discount': float64,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float64),
        'reward': float64,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float64
পদক্ষেপ/ছাড় টেনসর float64
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float64
পদক্ষেপ/পুরস্কার টেনসর float64

d4rl_mujoco_ant/v1-এলোমেলো

  • ডাউনলোড সাইজ : 225.18 MiB

  • ডেটাসেটের আকার : 583.83 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' ৫,৭৪১
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float32,
            'qpos': Tensor(shape=(15,), dtype=float32),
            'qvel': Tensor(shape=(14,), dtype=float32),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float32
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float32
পদক্ষেপ/infos/qvel টেনসর (14,) float32
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v2-বিশেষজ্ঞ

  • ডাউনলোড সাইজ : 355.94 MiB

  • ডেটাসেটের আকার : 969.38 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,035
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
নীতি ফিচারসডিক্ট
নীতি/fc0 ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত টেনসর (256,) float32
নীতি/fc0/ওজন টেনসর (256, 111) float32
নীতি/fc1 ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত টেনসর (256,) float32
নীতি/fc1/ওজন টেনসর (256, 256) float32
নীতি/লাস্ট_এফসি ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত টেনসর (8,) float32
নীতি/লাস্ট_এফসি/ওজন টেনসর (৮, ২৫৬) float32
নীতি/last_fc_log_std ফিচারসডিক্ট
নীতি/last_fc_log_std/bias টেনসর (8,) float32
নীতি/last_fc_log_std/ওজন টেনসর (৮, ২৫৬) float32
নীতি/অরৈখিকতা টেনসর স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন টেনসর স্ট্রিং
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v2-পূর্ণ-রিপ্লে

  • ডাউনলোড 428.57 MiB

  • ডেটাসেটের আকার : 580.09 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,319
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v2-মাধ্যম

  • ডাউনলোড সাইজ : 358.81 MiB

  • ডেটাসেটের আকার : 1.01 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 1,203
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'policy': FeaturesDict({
        'fc0': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 111), dtype=float32),
        }),
        'fc1': FeaturesDict({
            'bias': Tensor(shape=(256,), dtype=float32),
            'weight': Tensor(shape=(256, 256), dtype=float32),
        }),
        'last_fc': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'last_fc_log_std': FeaturesDict({
            'bias': Tensor(shape=(8,), dtype=float32),
            'weight': Tensor(shape=(8, 256), dtype=float32),
        }),
        'nonlinearity': string,
        'output_distribution': string,
    }),
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
নীতি ফিচারসডিক্ট
নীতি/fc0 ফিচারসডিক্ট
নীতি/fc0/পক্ষপাত টেনসর (256,) float32
নীতি/fc0/ওজন টেনসর (256, 111) float32
নীতি/fc1 ফিচারসডিক্ট
নীতি/fc1/পক্ষপাত টেনসর (256,) float32
নীতি/fc1/ওজন টেনসর (256, 256) float32
নীতি/লাস্ট_এফসি ফিচারসডিক্ট
নীতি/লাস্ট_এফসি/পক্ষপাত টেনসর (8,) float32
নীতি/লাস্ট_এফসি/ওজন টেনসর (৮, ২৫৬) float32
নীতি/last_fc_log_std ফিচারসডিক্ট
নীতি/last_fc_log_std/bias টেনসর (8,) float32
নীতি/last_fc_log_std/ওজন টেনসর (৮, ২৫৬) float32
নীতি/অরৈখিকতা টেনসর স্ট্রিং
নীতি/আউটপুট_ডিস্ট্রিবিউশন টেনসর স্ট্রিং
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v2-মাঝারি-বিশেষজ্ঞ

  • ডাউনলোডের আকার : 713.67 MiB

  • ডেটাসেটের আকার : 1.13 GiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 2,237
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v2-মিডিয়াম-রিপ্লে

  • ডাউনলোড আকার : 130.16 MiB

  • ডেটাসেটের আকার : 175.27 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): শুধুমাত্র যখন shuffle_files=False (ট্রেন)

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 485
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'algorithm': string,
    'iteration': int32,
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
অ্যালগরিদম টেনসর স্ট্রিং
পুনরাবৃত্তি টেনসর int32
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32

d4rl_mujoco_ant/v2-এলোমেলো

  • ডাউনলোড সাইজ : 366.66 MiB

  • ডেটাসেটের আকার : 583.90 MiB

  • স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না

  • বিভাজন :

বিভক্ত উদাহরণ
'train' 5,822
  • বৈশিষ্ট্য গঠন :
FeaturesDict({
    'steps': Dataset({
        'action': Tensor(shape=(8,), dtype=float32),
        'discount': float32,
        'infos': FeaturesDict({
            'action_log_probs': float64,
            'qpos': Tensor(shape=(15,), dtype=float64),
            'qvel': Tensor(shape=(14,), dtype=float64),
        }),
        'is_first': bool,
        'is_last': bool,
        'is_terminal': bool,
        'observation': Tensor(shape=(111,), dtype=float32),
        'reward': float32,
    }),
})
  • বৈশিষ্ট্য ডকুমেন্টেশন :
বৈশিষ্ট্য ক্লাস আকৃতি ডিটাইপ বর্ণনা
ফিচারসডিক্ট
পদক্ষেপ ডেটাসেট
পদক্ষেপ/ক্রিয়া টেনসর (8,) float32
পদক্ষেপ/ছাড় টেনসর float32
পদক্ষেপ/তথ্য ফিচারসডিক্ট
steps/infos/action_log_probs টেনসর float64
পদক্ষেপ/তথ্য/qpos টেনসর (15,) float64
পদক্ষেপ/infos/qvel টেনসর (14,) float64
steps/is_first টেনসর bool
ধাপ/শেষ_শেষ টেনসর bool
steps/is_terminal টেনসর bool
পদক্ষেপ/পর্যবেক্ষণ টেনসর (111,) float32
পদক্ষেপ/পুরস্কার টেনসর float32