Ajuda a proteger a Grande Barreira de Corais com TensorFlow em Kaggle Junte Desafio

rlu_dmlab_rooms_watermaze

  • Descrição:

RL Unplugged é um conjunto de benchmarks para aprendizagem por reforço offline. O RL Unplugged foi projetado em torno das seguintes considerações: para facilitar o uso, fornecemos os conjuntos de dados com uma API unificada que torna mais fácil para o profissional trabalhar com todos os dados no conjunto, uma vez que um pipeline geral tenha sido estabelecido.

Dataset DeepMind Lab tem vários níveis do desafio, parcialmente observável suíte Deepmind Lab . Conjunto de dados DeepMind Lab é recolhido por formação distribuído R2D2 por Kapturowski et al., 2018 agentes de zero em tarefas individuais. Registramos a experiência de todos os atores durante todo o treinamento, algumas vezes para cada tarefa. Os detalhes do processo de geração do conjunto de dados é descrito em Gulcehre et al., 2021 .

Nós liberamos conjuntos de dados para cinco níveis DeepMind Lab diferentes: seekavoid_arena_01 , explore_rewards_few , explore_rewards_many , rooms_watermaze , rooms_select_nonmatching_object . Nós também liberar os conjuntos de dados de instantâneo para seekavoid_arena_01 nível que gerou os conjuntos de dados de um instantâneo R2D2 treinou com diferentes níveis de ípsilons para o algoritmo epsilon-ganancioso quando se avalia o agente no ambiente.

O conjunto de dados do DeepMind Lab é bastante grande. Recomendamos que você experimente se estiver interessado em modelos RL off-line em grande escala com memória.

FeaturesDict({
    'episode_id': tf.int64,
    'episode_return': tf.float32,
    'steps': Dataset({
        'action': tf.int64,
        'discount': tf.float32,
        'is_first': tf.bool,
        'is_last': tf.bool,
        'is_terminal': tf.bool,
        'observation': FeaturesDict({
            'last_action': tf.int64,
            'last_reward': tf.float32,
            'pixels': Image(shape=(72, 96, 3), dtype=tf.uint8),
        }),
        'reward': tf.float32,
    }),
})
@article{gulcehre2021rbve,
    title={Regularized Behavior Value Estimation},
    author={ {\c{C} }aglar G{\"{u} }l{\c{c} }ehre and
               Sergio G{\'{o} }mez Colmenarejo and
               Ziyu Wang and
               Jakub Sygnowski and
               Thomas Paine and
               Konrad Zolna and
               Yutian Chen and
               Matthew W. Hoffman and
               Razvan Pascanu and
               Nando de Freitas},
    year={2021},
    journal   = {CoRR},
    url       = {https://arxiv.org/abs/2103.09575},
    eprint={2103.09575},
    archivePrefix={arXiv},
}

rlu_dmlab_rooms_watermaze / training_0 (configuração padrão)

  • Tamanho do conjunto de dados: 967.84 GiB

  • desdobramentos:

Dividir Exemplos
'train' 67.876

rlu_dmlab_rooms_watermaze / training_1

  • Tamanho do conjunto de dados: 967.66 GiB

  • desdobramentos:

Dividir Exemplos
'train' 66.922

rlu_dmlab_rooms_watermaze / training_2

  • Tamanho do conjunto de dados: 892.60 GiB

  • desdobramentos:

Dividir Exemplos
'train' 67.081