深度强化学习

引入

强化学习的难点

奖励延迟
Agent 的操作会影响它接收到的后续数据

概述

基于策略（学习 Actor）
基于值函数（学习 Critic）
Actor + Critic

基于策略的方法

几个版本

Version	核心思想	问题	改进	奖励
V0	只看即时奖励	无法处理延迟奖励	引入长期奖励	—
V1	看总回报 $G_{t}$	未来奖励权重一样	引入折扣	$G_{t} = \sum_{n = t}^{N} r_{n}$
V2	折扣回报	所有动作都可能被增强	引入 baseline	$G_{t}^{'} = \sum_{n = t}^{N} γ^{n - t} r_{n}$
V3	相对奖励（Advantage）	更稳定、更合理	接近现代 RL	$G_{t}^{'} = \sum_{n = t}^{N} γ^{n - t} r_{n} - b$

策略梯度

策略梯度（Policy Gradient）：

Initialize actor network parameters $θ_{0}$
For training iteration $i = 1$ to $T$ ：
- Using actor $θ_{i - 1}$ to interact
- Obtain data $s_{1}, a_{1}, s_{2}, a_{2}, \dots, s_{N}, a_{N}$
- Compute $A_{1}, A_{2}, \dots, A_{N}$
- Compute loss $L$
- $θ_{i} \leftarrow θ_{i - 1} - η \nabla L$

On-policy vs Off-policy

On-policy（同轨策略）：用于生成采样数据序列的策略（actor for interacting）和用于实际决策的待评估和改进的策略（actor to train）是相同的
Off-policy（离轨策略）→ Proximal Policy Optimization（PPO，近端策略优化）：训练的 actor 必须知道它与和环境互动的 actor 不同的地方。

训练

需要放大 Actor 的输出熵，或者在参数熵添加噪声。

actor 需要在数据收集过程中具有随机性，动作是从输出分布中采样的主要原因。

$b$ 可以依赖状态，通常由一个网络估计出来，是一个 NN 的输出，令 $A^{θ} (s_{t}, a_{t}) = R - b$ 为优势函数。意义是假设在某一状态 $s_{t}$ 执行某一个动作 $a_{t}$ 相对于其他可能的动作的优势。（评论员）

Actor-Critic

Policy Gradient

\nabla_{θ} R_{θ} \approx \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 1}^{T_{n}} (G_{t}^{n} - b) \nabla_{θ} \log p_{θ} (a_{t}^{n} | s_{t}^{n})

$G_{t}^{n}$ 通过和环境交互获得，不稳定。

有足够的样本，近似 $G$ 的期望。

Q-Learning

状态值函数 $V^{π} (s)$
- When using actor $π$ , the cumulated reward expects to be obtained after visiting state $s$
状态-动作值函数 $Q^{π} (s, a)$
- When using actor $π$ , the cumulated reward expects to be obtained after taking $a$ at state $s$

Version	核心思想	问题	改进	奖励 / Advantage
V3.5	Monte-Carlo Advantage Actor-Critic	必须等 episode 结束； $G_{t}$ 方差仍然很大	用 Critic 学习状态价值	$A_{t} = G_{t} - V_{θ} (s_{t})$
V4	TD Advantage / A2C	Monte-Carlo 更新慢、噪声大	用一步 TD bootstrap 估计未来	$A_{t} = r_{t} + γ V_{θ} (s_{t + 1}) - V_{θ} (s_{t})$

Advantage Actor-Critic

上面的 V4。

基于价值的方法

Critic

Critic 评估一个 actor $π$ 有多好
状态价值函数 $V^{π} (s)$
- 在状态 $s$ 下，当采取 actor $π$ 进行交互，期望最终获得的累积奖励

估计 $V^{π} (s)$

蒙特卡罗（MC）方法
- critic 观测 actor $π$ 玩整局游戏
时序差分方法
- 有些应用的 episode 太长，所以延迟到一个 episode 结束再学习是效率太低。

Q-Learning

给定 $Q^{π} (s, a)$ ，找到一个新 actor $π^{'}$ 比 $π$ "更好"：

"更好"： $V^{π^{'}} (s) \geq V^{π} (s)$ ，对所有的状态 $s$
$π^{'} (s) = \arg max_{a} Q^{π} (s, a)$
$π^{'}$ 没有额外的参数。它取决于 $Q$
不适合连续动作 $a$ （稍后解决）

DQN

利用 DQN， $Q (s, a; w)$ 近似 $Q^{*} (s, a)$ （最优动作价值函数）
DQN 通过 $a_{t} = \arg max_{a} Q (s_{t}, a; w)$ 选择动作
我们试图学习参数 $w$

改进——目标网络

$Q$ 更新 $N$ 次之后再复制给 Target $Q$ ：

Online 网络输出： $Q (s_{t}, a_{t}; w)$
Target 网络输出： $y_{t} = r_{t} + γ max_{a} \hat{Q} (s_{t + 1}, a; w^{-})$
计算 loss： $L = (Q - y)^{2}$

探索

Epsilon Greedy：argmax / 随机
Boltzmann Exploration：softmax

经验回放 Replay Buffer

$π$ 和环境交互放入缓存区。

在每次迭代：

对于每一个批量进行采样
更新 Q-function

Double DQN

解决 $Q$ 值被高估的问题：

Q (s_{t}, a_{t}) \leftarrow r_{t} + Q^{'} (s_{t + 1}, \arg max_{a} Q (s_{t + 1}, a))

Dueling DQN

把 $Q$ 拆成了 $V$ 和 $A$ ，解决没意义的选择上无效探索。

	Double DQN	Dueling DQN
解决问题	Q值高估	状态价值学习效率低
核心思想	动作选择与评估分离	Q拆成V+A
改哪里	target计算	网络结构
是否改变Q定义	否	是（分解Q）
主要收益	更稳定	更高效

优先级经验回放

让 TD 误差越大的数据被抽样的概率越高。

Multi-step TD

前 $N$ 步用真实奖励，后面再 bootstrap。

深度强化学习 ​

引入 ​

强化学习的难点 ​

概述 ​

基于策略的方法 ​

几个版本 ​

策略梯度 ​

On-policy vs Off-policy ​

训练 ​

Actor-Critic ​

Policy Gradient ​

Q-Learning ​

Advantage Actor-Critic ​

基于价值的方法 ​

Critic ​

估计 Vπ(s) ​

Q-Learning ​

DQN ​

改进——目标网络 ​

探索 ​

经验回放 Replay Buffer ​

Double DQN ​

Dueling DQN ​

优先级经验回放 ​

Multi-step TD ​

深度强化学习

引入

强化学习的难点

概述

基于策略的方法

几个版本

策略梯度

On-policy vs Off-policy

训练

Actor-Critic

Policy Gradient

Q-Learning

Advantage Actor-Critic

基于价值的方法

Critic

估计 $V^{π} (s)$

Q-Learning

DQN

改进——目标网络

探索

经验回放 Replay Buffer

Double DQN

Dueling DQN

优先级经验回放

Multi-step TD