Google I / O'daki önemli notları, ürün oturumlarını, atölyeleri ve daha fazlasını izleyin Oynatma listesine bakın

TF-Ajanları ile Deep Q Ağı Eğitin

TensorFlow.org'da görüntüleyin Google Colab'da çalıştırın Kaynağı GitHub'da görüntüleyinNot defterini indir

Giriş

Bu örnek, TF-Agents kitaplığını kullanarak Cartpole ortamında bir DQN (Deep Q Networks) aracısının nasıl eğitileceğini gösterir.

Kart direği ortamı

Eğitim, değerlendirme ve veri toplama için Reinforcement Learning (RL) boru hattındaki tüm bileşenlerde size yol gösterecektir.

Bu kodu canlı olarak çalıştırmak için yukarıdaki 'Google Colab'da Çalıştır' bağlantısını tıklayın.

Kurulum

Aşağıdaki bağımlılıkları yüklemediyseniz, çalıştırın:

sudo apt-get update
sudo apt-get install -y xvfb ffmpeg
pip install 'imageio==2.4.0'
pip install pyvirtualdisplay
pip install tf-agents
from __future__ import absolute_import, division, print_function

import base64
import imageio
import IPython
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import PIL.Image
import pyvirtualdisplay

import tensorflow as tf

from tf_agents.agents.dqn import dqn_agent
from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment
from tf_agents.eval import metric_utils
from tf_agents.metrics import tf_metrics
from tf_agents.networks import sequential
from tf_agents.policies import random_tf_policy
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.trajectories import trajectory
from tf_agents.specs import tensor_spec
from tf_agents.utils import common
# Set up a virtual display for rendering OpenAI gym environments.
display = pyvirtualdisplay.Display(visible=0, size=(1400, 900)).start()
tf.version.VERSION
'2.5.0'

hiperparametreler

num_iterations = 20000 # @param {type:"integer"}

initial_collect_steps = 100  # @param {type:"integer"} 
collect_steps_per_iteration = 1  # @param {type:"integer"}
replay_buffer_max_length = 100000  # @param {type:"integer"}

batch_size = 64  # @param {type:"integer"}
learning_rate = 1e-3  # @param {type:"number"}
log_interval = 200  # @param {type:"integer"}

num_eval_episodes = 10  # @param {type:"integer"}
eval_interval = 1000  # @param {type:"integer"}

Çevre

Reinforcement Learning'de (RL), bir ortam, çözülmesi gereken görevi veya sorunu temsil eder. TF- tf_agents.environments süitleri kullanılarak standart ortamlar oluşturulabilir. TF-Agents, OpenAI Gym, Atari ve DM Control gibi kaynaklardan ortamları yüklemek için paketlere sahiptir.

OpenAI Gym paketinden CartPole ortamını yükleyin.

env_name = 'CartPole-v0'
env = suite_gym.load(env_name)

Nasıl göründüğünü görmek için bu ortamı oluşturabilirsiniz. Bir arabaya serbest sallanan bir direk bağlanmıştır. Amaç, direği yukarı dönük tutmak için arabayı sağa veya sola hareket ettirmektir.

env.reset()
PIL.Image.fromarray(env.render())

png

environment.step yöntemi, environment.step bir action gerçekleştirir ve ortamın sonraki gözlemini ve eylemin ödülünü içeren bir TimeStep demeti döndürür.

time_step_spec() yöntemi, TimeStep belirtimini döndürür. observation niteliği, observation şeklini, veri türlerini ve izin verilen değer aralıklarını gösterir. reward özelliği, reward için aynı ayrıntıları gösterir.

print('Observation Spec:')
print(env.time_step_spec().observation)
Observation Spec:
BoundedArraySpec(shape=(4,), dtype=dtype('float32'), name='observation', minimum=[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], maximum=[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38])
print('Reward Spec:')
print(env.time_step_spec().reward)
Reward Spec:
ArraySpec(shape=(), dtype=dtype('float32'), name='reward')

action_spec() yöntemi, geçerli eylemlerin şeklini, veri türlerini ve izin verilen değerlerini döndürür.

print('Action Spec:')
print(env.action_spec())
Action Spec:
BoundedArraySpec(shape=(), dtype=dtype('int64'), name='action', minimum=0, maximum=1)

Cartpole ortamında:

  • observation 4 şamandıralı bir dizidir:
    • arabanın konumu ve hızı
    • direğin açısal konumu ve hızı
  • reward bir skaler kayan değerdir
  • action , yalnızca iki olası değeri olan bir skaler tamsayıdır:
    • 0 - "sola hareket et"
    • 1 - "sağa hareket et"
time_step = env.reset()
print('Time step:')
print(time_step)

action = np.array(1, dtype=np.int32)

next_time_step = env.step(action)
print('Next time step:')
print(next_time_step)
Time step:
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.02291739, -0.04223812,  0.04325358,  0.03615353], dtype=float32),
 'reward': array(0., dtype=float32),
 'step_type': array(0, dtype=int32)})
Next time step:
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.02376215,  0.15223774,  0.04397665, -0.24257484], dtype=float32),
 'reward': array(1., dtype=float32),
 'step_type': array(1, dtype=int32)})

Genellikle iki ortam somutlaştırılır: biri eğitim ve diğeri değerlendirme için.

train_py_env = suite_gym.load(env_name)
eval_py_env = suite_gym.load(env_name)

Cartpole ortamı, çoğu ortam gibi saf Python ile yazılmıştır. Bu, TFPyEnvironment sarmalayıcı kullanılarak TensorFlow'a dönüştürülür.

Orijinal ortamın API'si Numpy dizilerini kullanır. TFPyEnvironment , bunları Tensorflow aracıları ve ilkeleriyle uyumlu hale getirmek için bunları Tensors dönüştürür.

train_env = tf_py_environment.TFPyEnvironment(train_py_env)
eval_env = tf_py_environment.TFPyEnvironment(eval_py_env)

Temsilci

Bir RL problemini çözmek için kullanılan algoritma bir Agent ile temsil edilir. TF-Ajanlar çeşitli standart uygulamaları sağlar Agents , aşağıdakileri içerir:

DQN aracısı, ayrı bir eylem alanına sahip herhangi bir ortamda kullanılabilir.

Bir DQN Ajan kalbinde bir olan QNetwork , tahmin öğrenebilir bir sinir ağı modeli QValues çevreden bir gözlem verilen bütün eylemler için (beklenen getiriler).

tf_agents.networks. bir QNetwork oluşturmak için . Ağ, son katmanın her olası eylem için 1 çıktıya sahip olacağı bir dizi tf.keras.layers.Dense katmanından oluşacaktır.

fc_layer_params = (100, 50)
action_tensor_spec = tensor_spec.from_spec(env.action_spec())
num_actions = action_tensor_spec.maximum - action_tensor_spec.minimum + 1

# Define a helper function to create Dense layers configured with the right
# activation and kernel initializer.
def dense_layer(num_units):
  return tf.keras.layers.Dense(
      num_units,
      activation=tf.keras.activations.relu,
      kernel_initializer=tf.keras.initializers.VarianceScaling(
          scale=2.0, mode='fan_in', distribution='truncated_normal'))

# QNetwork consists of a sequence of Dense layers followed by a dense layer
# with `num_actions` units to generate one q_value per available action as
# it's output.
dense_layers = [dense_layer(num_units) for num_units in fc_layer_params]
q_values_layer = tf.keras.layers.Dense(
    num_actions,
    activation=None,
    kernel_initializer=tf.keras.initializers.RandomUniform(
        minval=-0.03, maxval=0.03),
    bias_initializer=tf.keras.initializers.Constant(-0.2))
q_net = sequential.Sequential(dense_layers + [q_values_layer])

Şimdi kullanmak tf_agents.agents.dqn.dqn_agent bir örneğini DqnAgent . time_step_spec , action_spec ve time_step_spec ek olarak, aracı oluşturucu ayrıca bir optimize edici (bu durumda AdamOptimizer ), bir kayıp işlevi ve bir tamsayı adım sayacı gerektirir.

optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate)

train_step_counter = tf.Variable(0)

agent = dqn_agent.DqnAgent(
    train_env.time_step_spec(),
    train_env.action_spec(),
    q_network=q_net,
    optimizer=optimizer,
    td_errors_loss_fn=common.element_wise_squared_loss,
    train_step_counter=train_step_counter)

agent.initialize()

Politikalar

Politika, bir aracının bir ortamda nasıl hareket ettiğini tanımlar. Tipik olarak, pekiştirmeli öğrenmenin amacı, politika istenen sonucu üretene kadar temel modeli eğitmektir.

Bu eğitimde:

  • Arzu edilen sonuç, direği araba üzerinde dik olarak dengede tutmaktır.
  • Politika, her time_step gözlemi için bir eylem (sol veya sağ) döndürür.

Aracılar iki ilke içerir:

  • agent.policy — Değerlendirme ve dağıtım için kullanılan ana ilke.
  • agent.collect_policy — Veri toplama için kullanılan ikinci bir ilke.
eval_policy = agent.policy
collect_policy = agent.collect_policy

Politikalar aracılardan bağımsız olarak oluşturulabilir. Örneğin, kullanmak tf_agents.policies.random_tf_policy rastgele her biri için bir eylem seçecektir bir ilke oluşturmak için time_step .

random_policy = random_tf_policy.RandomTFPolicy(train_env.time_step_spec(),
                                                train_env.action_spec())

Bir ilkeden eylem almak için policy.action(time_step) yöntemini policy.action(time_step) . time_step , ortamdan gözlemi içerir. Bu yöntem, üç bileşenli adlandırılmış bir demet olan PolicyStep döndürür:

  • action — yapılacak eylem (bu durumda, 0 veya 1 )
  • state — durum bilgisi olan (yani, RNN tabanlı) politikalar için kullanılır
  • info — eylemlerin günlük olasılıkları gibi yardımcı veriler
example_environment = tf_py_environment.TFPyEnvironment(
    suite_gym.load('CartPole-v0'))
time_step = example_environment.reset()
random_policy.action(time_step)
PolicyStep(action=<tf.Tensor: shape=(1,), dtype=int64, numpy=array([1])>, state=(), info=())

Metrikler ve Değerlendirme

Bir politikayı değerlendirmek için kullanılan en yaygın ölçüm ortalama getiridir. Geri dönüş, bir bölüm için bir ortamda bir ilke çalıştırırken elde edilen ödüllerin toplamıdır. Birkaç bölüm çalıştırılarak ortalama bir getiri elde edilir.

Aşağıdaki işlev, ilke, ortam ve bir dizi bölüm verilen bir ilkenin ortalama getirisini hesaplar.

def compute_avg_return(environment, policy, num_episodes=10):

  total_return = 0.0
  for _ in range(num_episodes):

    time_step = environment.reset()
    episode_return = 0.0

    while not time_step.is_last():
      action_step = policy.action(time_step)
      time_step = environment.step(action_step.action)
      episode_return += time_step.reward
    total_return += episode_return

  avg_return = total_return / num_episodes
  return avg_return.numpy()[0]


# See also the metrics module for standard implementations of different metrics.
# https://github.com/tensorflow/agents/tree/master/tf_agents/metrics

Bu hesaplamayı random_policy üzerinde çalıştırmak, ortamda temel bir performans gösterir.

compute_avg_return(eval_env, random_policy, num_eval_episodes)
28.4

Tekrar arabelleği

Yeniden yürütme arabelleği, ortamdan toplanan verilerin kaydını tutar. Bu öğretici, en yaygın olduğu için tf_agents.replay_buffers.tf_uniform_replay_buffer.TFUniformReplayBuffer kullanır.

Yapıcı, toplayacağı veriler için spesifikasyonlara ihtiyaç duyar. Bu, collect_data_spec yöntemi kullanılarak collect_data_spec . Parti boyutu ve maksimum arabellek uzunluğu da gereklidir.

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    data_spec=agent.collect_data_spec,
    batch_size=train_env.batch_size,
    max_length=replay_buffer_max_length)

Çoğu aracı için, collect_data_spec , gözlemler, eylemler, ödüller ve diğer öğelerin özelliklerini içeren, Trajectory adlı adlandırılmış bir collect_data_spec .

agent.collect_data_spec
Trajectory(
{'action': BoundedTensorSpec(shape=(), dtype=tf.int64, name='action', minimum=array(0), maximum=array(1)),
 'discount': BoundedTensorSpec(shape=(), dtype=tf.float32, name='discount', minimum=array(0., dtype=float32), maximum=array(1., dtype=float32)),
 'next_step_type': TensorSpec(shape=(), dtype=tf.int32, name='step_type'),
 'observation': BoundedTensorSpec(shape=(4,), dtype=tf.float32, name='observation', minimum=array([-4.8000002e+00, -3.4028235e+38, -4.1887903e-01, -3.4028235e+38],
      dtype=float32), maximum=array([4.8000002e+00, 3.4028235e+38, 4.1887903e-01, 3.4028235e+38],
      dtype=float32)),
 'policy_info': (),
 'reward': TensorSpec(shape=(), dtype=tf.float32, name='reward'),
 'step_type': TensorSpec(shape=(), dtype=tf.int32, name='step_type')})
agent.collect_data_spec._fields
('step_type',
 'observation',
 'action',
 'policy_info',
 'next_step_type',
 'reward',
 'discount')

Veri toplama

Şimdi, verileri yeniden oynatma arabelleğine kaydederek, birkaç adım için ortamda rastgele politikayı yürütün.

def collect_step(environment, policy, buffer):
  time_step = environment.current_time_step()
  action_step = policy.action(time_step)
  next_time_step = environment.step(action_step.action)
  traj = trajectory.from_transition(time_step, action_step, next_time_step)

  # Add trajectory to the replay buffer
  buffer.add_batch(traj)

def collect_data(env, policy, buffer, steps):
  for _ in range(steps):
    collect_step(env, policy, buffer)

collect_data(train_env, random_policy, replay_buffer, initial_collect_steps)

# This loop is so common in RL, that we provide standard implementations. 
# For more details see tutorial 4 or the drivers module.
# https://github.com/tensorflow/agents/blob/master/docs/tutorials/4_drivers_tutorial.ipynb 
# https://www.tensorflow.org/agents/api_docs/python/tf_agents/drivers

Yeniden oynatma arabelleği artık bir Yörüngeler koleksiyonudur.

# For the curious:
# Uncomment to peel one of these off and inspect it.
# iter(replay_buffer.as_dataset()).next()

Aracının yeniden oynatma arabelleğine erişmesi gerekiyor. Bu, aracıya veri besleyecek yinelenebilir birtf.data.Dataset ardışık düzeni oluşturularak sağlanır.

Tekrar arabelleğinin her satırı yalnızca tek bir gözlem adımını depolar. Ancak DQN Aracısı, kaybı hesaplamak için hem geçerli hem de sonraki gözleme ihtiyaç duyduğundan, veri kümesi ardışık num_steps=2 toplu iş içindeki her öğe için iki bitişik satırı num_steps=2 ( num_steps=2 ).

Bu veri kümesi, paralel çağrılar çalıştırılarak ve verileri önceden getirerek de optimize edilir.

# Dataset generates trajectories with shape [Bx2x...]
dataset = replay_buffer.as_dataset(
    num_parallel_calls=3, 
    sample_batch_size=batch_size, 
    num_steps=2).prefetch(3)


dataset
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/autograph/impl/api.py:382: ReplayBuffer.get_next (from tf_agents.replay_buffers.replay_buffer) is deprecated and will be removed in a future version.
Instructions for updating:
Use `as_dataset(..., single_deterministic_pass=False) instead.
<PrefetchDataset shapes: (Trajectory(
{action: (64, 2),
 discount: (64, 2),
 next_step_type: (64, 2),
 observation: (64, 2, 4),
 policy_info: (),
 reward: (64, 2),
 step_type: (64, 2)}), BufferInfo(ids=(64, 2), probabilities=(64,))), types: (Trajectory(
{action: tf.int64,
 discount: tf.float32,
 next_step_type: tf.int32,
 observation: tf.float32,
 policy_info: (),
 reward: tf.float32,
 step_type: tf.int32}), BufferInfo(ids=tf.int64, probabilities=tf.float32))>
iterator = iter(dataset)
print(iterator)
<tensorflow.python.data.ops.iterator_ops.OwnedIterator object at 0x7f480466f5d0>
# For the curious:
# Uncomment to see what the dataset iterator is feeding to the agent.
# Compare this representation of replay data 
# to the collection of individual trajectories shown earlier.

# iterator.next()

Temsilciyi eğitmek

Eğitim döngüsü sırasında iki şey gerçekleşmelidir:

  • ortamdan veri toplamak
  • aracının sinir ağlarını eğitmek için bu verileri kullanın

Bu örnek ayrıca politikayı periyodik olarak değerlendirir ve mevcut puanı yazdırır.

Aşağıdakilerin çalışması ~ 5 dakika sürecektir.

try:
  %%time
except:
  pass

# (Optional) Optimize by wrapping some of the code in a graph using TF function.
agent.train = common.function(agent.train)

# Reset the train step
agent.train_step_counter.assign(0)

# Evaluate the agent's policy once before training.
avg_return = compute_avg_return(eval_env, agent.policy, num_eval_episodes)
returns = [avg_return]

for _ in range(num_iterations):

  # Collect a few steps using collect_policy and save to the replay buffer.
  collect_data(train_env, agent.collect_policy, replay_buffer, collect_steps_per_iteration)

  # Sample a batch of data from the buffer and update the agent's network.
  experience, unused_info = next(iterator)
  train_loss = agent.train(experience).loss

  step = agent.train_step_counter.numpy()

  if step % log_interval == 0:
    print('step = {0}: loss = {1}'.format(step, train_loss))

  if step % eval_interval == 0:
    avg_return = compute_avg_return(eval_env, agent.policy, num_eval_episodes)
    print('step = {0}: Average Return = {1}'.format(step, avg_return))
    returns.append(avg_return)
WARNING:tensorflow:From /tmpfs/src/tf_docs_env/lib/python3.7/site-packages/tensorflow/python/util/dispatch.py:206: calling foldr_v2 (from tensorflow.python.ops.functional_ops) with back_prop=False is deprecated and will be removed in a future version.
Instructions for updating:
back_prop=False is deprecated. Consider using tf.stop_gradient instead.
Instead of:
results = tf.foldr(fn, elems, back_prop=False)
Use:
results = tf.nest.map_structure(tf.stop_gradient, tf.foldr(fn, elems))
step = 200: loss = 18.56928825378418
step = 400: loss = 5.047736167907715
step = 600: loss = 14.25174331665039
step = 800: loss = 24.014192581176758
step = 1000: loss = 18.762466430664062
step = 1000: Average Return = 154.1999969482422
step = 1200: loss = 48.24091339111328
step = 1400: loss = 32.6214599609375
step = 1600: loss = 47.680694580078125
step = 1800: loss = 242.03060913085938
step = 2000: loss = 73.53008270263672
step = 2000: Average Return = 200.0
step = 2200: loss = 53.16136169433594
step = 2400: loss = 373.9162902832031
step = 2600: loss = 39.21461486816406
step = 2800: loss = 105.97955322265625
step = 3000: loss = 119.51268768310547
step = 3000: Average Return = 200.0
step = 3200: loss = 226.07618713378906
step = 3400: loss = 442.111572265625
step = 3600: loss = 437.02545166015625
step = 3800: loss = 662.8380737304688
step = 4000: loss = 782.982421875
step = 4000: Average Return = 200.0
step = 4200: loss = 121945.578125
step = 4400: loss = 2674.33154296875
step = 4600: loss = 2334.872802734375
step = 4800: loss = 2527.200927734375
step = 5000: loss = 8297.3955078125
step = 5000: Average Return = 200.0
step = 5200: loss = 8597.1923828125
step = 5400: loss = 7340.04443359375
step = 5600: loss = 3453.21728515625
step = 5800: loss = 27120.724609375
step = 6000: loss = 48760.671875
step = 6000: Average Return = 200.0
step = 6200: loss = 38986.421875
step = 6400: loss = 48238.234375
step = 6600: loss = 57711.22265625
step = 6800: loss = 274270.9375
step = 7000: loss = 63824.61328125
step = 7000: Average Return = 200.0
step = 7200: loss = 119148.859375
step = 7400: loss = 159678.6875
step = 7600: loss = 141013.96875
step = 7800: loss = 596496.9375
step = 8000: loss = 563607.125
step = 8000: Average Return = 200.0
step = 8200: loss = 7630604.0
step = 8400: loss = 13285580.0
step = 8600: loss = 333170048.0
step = 8800: loss = 23120384.0
step = 9000: loss = 369857056.0
step = 9000: Average Return = 200.0
step = 9200: loss = 17108284.0
step = 9400: loss = 49773056.0
step = 9600: loss = 21419348.0
step = 9800: loss = 148333248.0
step = 10000: loss = 67406928.0
step = 10000: Average Return = 77.0999984741211
step = 10200: loss = 16730348.0
step = 10400: loss = 19317756.0
step = 10600: loss = 12585502.0
step = 10800: loss = 15987130.0
step = 11000: loss = 32655918.0
step = 11000: Average Return = 200.0
step = 11200: loss = 11686570.0
step = 11400: loss = 15297463.0
step = 11600: loss = 15890760.0
step = 11800: loss = 17948140.0
step = 12000: loss = 7198852.5
step = 12000: Average Return = 200.0
step = 12200: loss = 12537673.0
step = 12400: loss = 11662791.0
step = 12600: loss = 157308304.0
step = 12800: loss = 9338672.0
step = 13000: loss = 7486102.0
step = 13000: Average Return = 200.0
step = 13200: loss = 7827698.5
step = 13400: loss = 7565884.0
step = 13600: loss = 12146330.0
step = 13800: loss = 8902687.0
step = 14000: loss = 12659248.0
step = 14000: Average Return = 200.0
step = 14200: loss = 9578409.0
step = 14400: loss = 13338937.0
step = 14600: loss = 12442834.0
step = 14800: loss = 8154804.5
step = 15000: loss = 14968015.0
step = 15000: Average Return = 200.0
step = 15200: loss = 6897091.0
step = 15400: loss = 11543962.0
step = 15600: loss = 8033916.5
step = 15800: loss = 16707812.0
step = 16000: loss = 3942055680.0
step = 16000: Average Return = 200.0
step = 16200: loss = 9505360.0
step = 16400: loss = 5509431.5
step = 16600: loss = 9405398.0
step = 16800: loss = 8809309.0
step = 17000: loss = 10677678.0
step = 17000: Average Return = 200.0
step = 17200: loss = 10017460.0
step = 17400: loss = 8878522.0
step = 17600: loss = 9307826.0
step = 17800: loss = 8975850.0
step = 18000: loss = 11676451.0
step = 18000: Average Return = 200.0
step = 18200: loss = 355074080.0
step = 18400: loss = 22255044.0
step = 18600: loss = 16955560.0
step = 18800: loss = 12466311.0
step = 19000: loss = 17620040.0
step = 19000: Average Return = 200.0
step = 19200: loss = 6484491.5
step = 19400: loss = 14639623.0
step = 19600: loss = 11706258.0
step = 19800: loss = 19145572.0
step = 20000: loss = 13256708.0
step = 20000: Average Return = 200.0

görselleştirme

araziler

Eğitim sırasında politikanın nasıl geliştiğini grafiklendirmek için matplotlib.pyplot kullanın.

Cartpole-v0 bir yinelemesi, 200 zaman adımından oluşur. Çevre, direğin yukarıda kaldığı her adım için +1 ödül verir, bu nedenle bir bölüm için maksimum getiri 200'dür. Çizelgeler, antrenman sırasında her değerlendirildiğinde bu maksimuma doğru artan getiriyi gösterir. (Biraz kararsız olabilir ve her seferinde monoton artmayabilir.)

iterations = range(0, num_iterations + 1, eval_interval)
plt.plot(iterations, returns)
plt.ylabel('Average Return')
plt.xlabel('Iterations')
plt.ylim(top=250)
(-0.1300004005432136, 250.0)

png

Videolar

Grafikler güzel. Ancak daha heyecan verici bir ortamda bir ajanın gerçekten bir görevi yerine getirdiğini görmek.

İlk olarak, videoları not defterine gömmek için bir işlev oluşturun.

def embed_mp4(filename):
  """Embeds an mp4 file in the notebook."""
  video = open(filename,'rb').read()
  b64 = base64.b64encode(video)
  tag = '''
  <video width="640" height="480" controls>
    <source src="data:video/mp4;base64,{0}" type="video/mp4">
  Your browser does not support the video tag.
  </video>'''.format(b64.decode())

  return IPython.display.HTML(tag)

Şimdi temsilci ile Cartpole oyununun birkaç bölümünü yineleyin. Temel Python ortamı (TensorFlow ortam sarmalayıcısının "içindeki" olan), ortam durumunun bir görüntüsünü veren bir render() yöntemi sağlar. Bunlar bir videoda toplanabilir.

def create_policy_eval_video(policy, filename, num_episodes=5, fps=30):
  filename = filename + ".mp4"
  with imageio.get_writer(filename, fps=fps) as video:
    for _ in range(num_episodes):
      time_step = eval_env.reset()
      video.append_data(eval_py_env.render())
      while not time_step.is_last():
        action_step = policy.action(time_step)
        time_step = eval_env.step(action_step.action)
        video.append_data(eval_py_env.render())
  return embed_mp4(filename)




create_policy_eval_video(agent.policy, "trained-agent")
WARNING:root:IMAGEIO FFMPEG_WRITER WARNING: input image is not divisible by macro_block_size=16, resizing from (400, 600) to (400, 608) to ensure video compatibility with most codecs and players. To prevent resizing, make your input image divisible by the macro_block_size or set the macro_block_size to None (risking incompatibility). You may also see a FFMPEG warning concerning speedloss due to data not being aligned.

Eğlenmek için, eğitimli aracıyı (yukarıda) rastgele hareket eden bir aracıyla karşılaştırın. (Ayrıca yapmaz.)

create_policy_eval_video(random_policy, "random-agent")
WARNING:root:IMAGEIO FFMPEG_WRITER WARNING: input image is not divisible by macro_block_size=16, resizing from (400, 600) to (400, 608) to ensure video compatibility with most codecs and players. To prevent resizing, make your input image divisible by the macro_block_size or set the macro_block_size to None (risking incompatibility). You may also see a FFMPEG warning concerning speedloss due to data not being aligned.