# Initial imports
import importlib
import itertools
import torch
import numpy as np
import matplotlib.pyplot as plt
import utils
import submitted


import utils
rollout_buffer = utils.RolloutBuffer()
# Add two episodes to the rollout buffer where the rewards go 1, 2, 3, 4....
dummy = torch.tensor([0])
for _ in range(2):
    for i in range(10):
        rollout_buffer.add(action=dummy, logits=dummy, observation=dummy, terminated=False, reward=i)
    rollout_buffer.add(action=dummy, logits=dummy, observation=dummy, terminated=True, reward=10)
rollout_buffer.finalize()

import submitted
importlib.reload(submitted)

# Note the two distinct rollouts visible in the returns
submitted.get_returns(rollout_buffer, discount_factor=0.5)

tensor([[ 1.9883],
        [ 3.9766],
        [ 5.9531],
        [ 7.9062],
        [ 9.8125],
        [11.6250],
        [13.2500],
        [14.5000],
        [15.0000],
        [14.0000],
        [10.0000],
        [ 1.9883],
        [ 3.9766],
        [ 5.9531],
        [ 7.9062],
        [ 9.8125],
        [11.6250],
        [13.2500],
        [14.5000],
        [15.0000],
        [14.0000],
        [10.0000]])


obs_space_sz = 3
act_space_sz = 2
batch_sz = 4

policy = utils.SimpleReLuNetwork(obs_space_sz, act_space_sz,
                                 out_logsoftmax=True, fixed_init=[0.5, 0.5])

importlib.reload(submitted)

torch.manual_seed(0)
submitted.get_vanilla_policy_gradient_loss(
    policy=policy,
    observation         = torch.rand((4, obs_space_sz)),
    action              = torch.randint(low=0, high=act_space_sz, size=(4, 1)),
    return_or_advantage = torch.rand((4, 1)),
)

# For your sanity checking. This should spit out a size 1 tensor with value 0.3363

tensor(0.3363, grad_fn=<NegBackward0>)


importlib.reload(submitted)

env = utils.GridWorldPointTargetEnv(grid_size=10, dimensions=1, episode_length=20)
actor = utils.SimpleReLuNetwork(2, 3, hidden_dims=[16], out_logsoftmax=True)
optimizer = torch.optim.Adam(actor.parameters(), lr=1e-3)
losses_actor, _, final_rewards, _ = submitted.train_policy_gradient(
    env=env,
    policy=actor, optimizer=optimizer,
    get_policy_gradient_loss=submitted.get_vanilla_policy_gradient_loss,
    get_returns=submitted.get_returns,
    critic_loss_multiplier = 0.01,
    rollouts=2_000,
    rollouts_before_training=4,
    training_epochs_per_rollout=8,
    minibatch_size=64
)

fig, axs = plt.subplots(2)
axs[0].plot(losses_actor)
axs[0].set_ylabel("Policy gradient loss")
axs[1].plot(final_rewards)
axs[1].set_ylabel("Reward")
plt.show()

Runing rollout 1999/2000


N_ROLLOUTS = 100
rollout_buffer, reward_mean = submitted.collect_rollouts(
        env=env, policy=actor, num_rollouts=N_ROLLOUTS)
print(f"Collected {N_ROLLOUTS} rollouts with mean reward {reward_mean}")

success_rate = utils.show_lineworld_rollouts(env, rollout_buffer)

print(f"Success rate of {success_rate * 100:.0f}%")

Collected 100 rollouts with mean reward -0.035
Success rate of 51%


importlib.reload(submitted)

env = utils.GridWorldPointTargetEnv(grid_size=10, dimensions=1, episode_length=20)
actor = utils.SimpleReLuNetwork(2, 3, hidden_dims=[16], out_logsoftmax=True)
critic = utils.SimpleReLuNetwork(2, 1, hidden_dims=[16])
optimizer = torch.optim.Adam(itertools.chain(actor.parameters(), critic.parameters()), lr=1e-3)
losses_actor, losses_critic, final_rewards, lr = submitted.train_policy_gradient(
    env=env,
    policy=actor, optimizer=optimizer,
    get_policy_gradient_loss=submitted.get_vanilla_policy_gradient_loss,
    get_returns=submitted.get_returns,
    value_net=critic,
    get_advantages = submitted.get_advantages,
    get_value_net_loss = submitted.get_value_net_loss,
    critic_loss_multiplier = 0.01,
    rollouts=2_000,
    rollouts_before_training=4,
    training_epochs_per_rollout=8,
    minibatch_size=64
)

fig, axs = plt.subplots(3)
axs[0].plot(losses_actor)
axs[0].set_ylabel("Policy gradient loss")
axs[1].plot(losses_critic)
axs[1].set_ylabel("Value network loss")
axs[2].plot(final_rewards)
axs[2].set_ylabel("Reward")
plt.show()

Runing rollout 1999/2000


N_ROLLOUTS = 100
rollout_buffer, reward_mean = submitted.collect_rollouts(
        env=env, policy=actor, num_rollouts=N_ROLLOUTS)
print(f"Collected {N_ROLLOUTS} rollouts with mean reward {reward_mean}")

success_rate = utils.show_lineworld_rollouts(env, rollout_buffer)

print(f"Success rate of {success_rate * 100:.0f}%")

Collected 100 rollouts with mean reward 0.0
Success rate of 100%


importlib.reload(utils)

env = utils.OpenAIGymEnv()
actor = utils.SimpleReLuNetwork(4, 2, hidden_dims=[300, 400], out_logsoftmax=True)
critic = utils.SimpleReLuNetwork(4, 1, hidden_dims=[300, 400])
optimizer = torch.optim.Adam(itertools.chain(actor.parameters(), critic.parameters()), lr=1e-6)
losses_actor, losses_critic, final_rewards, lr = submitted.train_policy_gradient(
    env=env,
    policy=actor, optimizer=optimizer,
    get_policy_gradient_loss=submitted.get_vanilla_policy_gradient_loss,
    get_returns=submitted.get_returns,
    value_net=critic,
    get_advantages = submitted.get_advantages,
    get_value_net_loss = submitted.get_value_net_loss,
    critic_loss_multiplier = 1.0,
    rollouts=20_000,
    rollouts_before_training=64,
    training_epochs_per_rollout=8,
    minibatch_size=1024
)

fig, axs = plt.subplots(3)
axs[0].plot(losses_actor)
axs[0].set_ylabel("Policy gradient loss")
axs[1].plot(losses_critic)
axs[1].set_ylabel("Value network loss")
axs[2].plot(final_rewards)
axs[2].set_ylabel("Reward")
plt.show()

Runing rollout 20031/20000


# This will open a PyGame window
N_ROLLOUTS = 10
rollout_buffer, reward_mean = submitted.collect_rollouts(

env=utils.OpenAIGymEnv(vis=True), policy=actor, num_rollouts=N_ROLLOUTS)

Runing rollout 9/10


importlib.reload(submitted)

env = utils.GridWorldPointTargetEnv(grid_size=10, dimensions=1, episode_length=20)
actor = utils.SimpleReLuNetwork(2, 3, hidden_dims=[16], out_logsoftmax=True)
critic = utils.SimpleReLuNetwork(2, 1, hidden_dims=[16])
optimizer = torch.optim.Adam(itertools.chain(actor.parameters(), critic.parameters()), lr=4e-3)
losses_actor, losses_critic, final_rewards, lr = submitted.train_policy_gradient(
    env=env,
    policy=actor, optimizer=optimizer,
    get_policy_gradient_loss=submitted.get_vanilla_policy_gradient_loss,
    get_returns=submitted.get_returns,
    value_net=critic,
    get_advantages = submitted.get_advantages,
    get_value_net_loss = submitted.get_value_net_loss,
    critic_loss_multiplier = 0.01,
    rollouts=2_000,
    rollouts_before_training=4,
    training_epochs_per_rollout=8,
    minibatch_size=64
)

fig, axs = plt.subplots(3)
axs[0].plot(losses_actor)
axs[0].set_ylabel("Policy gradient loss")
axs[1].plot(losses_critic)
axs[1].set_ylabel("Value network loss")
axs[2].plot(final_rewards)
axs[2].set_ylabel("Reward")
plt.show()

Runing rollout 1999/2000


N_ROLLOUTS = 100
rollout_buffer, reward_mean = submitted.collect_rollouts(
        env=env, policy=actor, num_rollouts=N_ROLLOUTS)
print(f"Collected {N_ROLLOUTS} rollouts with mean reward {reward_mean}")

success_rate = utils.show_lineworld_rollouts(env, rollout_buffer)

print(f"Success rate of {success_rate * 100:.0f}%")

Collected 100 rollouts with mean reward -0.31800000000000006
Success rate of 12%


importlib.reload(submitted)

env = utils.GridWorldPointTargetEnv(grid_size=10, dimensions=1, episode_length=20)
actor = utils.SimpleReLuNetwork(2, 3, hidden_dims=[16], out_logsoftmax=True)
critic = utils.SimpleReLuNetwork(2, 1, hidden_dims=[16])
optimizer = torch.optim.Adam(itertools.chain(actor.parameters(), critic.parameters()), lr=4e-3)
losses_actor, losses_critic, final_rewards, lr = submitted.train_policy_gradient(
    env=env,
    policy=actor, optimizer=optimizer,
    get_policy_gradient_loss=submitted.get_PPO_policy_gradient_loss,
    get_returns=submitted.get_returns,
    value_net=critic,
    get_advantages = submitted.get_advantages,
    get_value_net_loss = submitted.get_value_net_loss,
    critic_loss_multiplier = 0.01,
    rollouts=2_000,
    rollouts_before_training=4,
    training_epochs_per_rollout=8,
    minibatch_size=64
)

fig, axs = plt.subplots(3)
axs[0].plot(losses_actor)
axs[0].set_ylabel("Policy gradient loss")
axs[1].plot(losses_critic)
axs[1].set_ylabel("Value network loss")
axs[2].plot(final_rewards)
axs[2].set_ylabel("Reward")
plt.show()

Runing rollout 1999/2000


N_ROLLOUTS = 100
rollout_buffer, reward_mean = submitted.collect_rollouts(
        env=env, policy=actor, num_rollouts=N_ROLLOUTS)
print(f"Collected {N_ROLLOUTS} rollouts with mean reward {reward_mean}")

success_rate = utils.show_lineworld_rollouts(env, rollout_buffer)

print(f"Success rate of {success_rate * 100:.0f}%")

Collected 100 rollouts with mean reward 0.0
Success rate of 100%

CS440/ECE448 Spring 2024¶

MP11: Policy Gradient Methods¶

Table of Contents¶

Introduction¶

Trajectory Return¶

Vanilla Policy Gradient¶

Policy Training¶

Advantage Estimation¶

Extra Credit: Proximal Policy Optimization¶