深度强化学习
引入
强化学习的难点
- 奖励延迟
- Agent 的操作会影响它接收到的后续数据
概述
- 基于策略 (学习 Actor)
- 基于值函数 (学习 Critic)
- Actor + Critic
基于策略的方法
几个版本
| Version | 核心思想 | 问题 | 改进 | 奖励 |
|---|---|---|---|---|
| V0 | 只看即时奖励 | 无法处理延迟奖励 | 引入长期奖励 | — |
| V1 | 看总回报 | 未来奖励权重一样 | 引入折扣 | |
| V2 | 折扣回报 | 所有动作都可能被增强 | 引入 baseline | |
| V3 | 相对奖励(Advantage) | 更稳定、更合理 | 接近现代 RL |
策略梯度
策略梯度(Policy Gradient):
- Initialize actor network parameters
- For training iteration
to : - Using actor
to interact - Obtain data
- Compute
- Compute loss
- Using actor
On-policy vs Off-policy
- On-policy(同轨策略):用于生成采样数据序列的策略(actor for interacting)和用于实际决策的待评估和改进的策略(actor to train)是相同的
- Off-policy(离轨策略)→ Proximal Policy Optimization(PPO,近端策略优化):训练的 actor 必须知道它与和环境互动的 actor 不同的地方。
训练
需要放大 Actor 的输出熵,或者在参数熵添加噪声。
actor 需要在数据收集过程中具有随机性,动作是从输出分布中采样的主要原因。
Actor-Critic
Policy Gradient
有足够的样本,近似
Q-Learning
- 状态值函数
- When using actor
, the cumulated reward expects to be obtained after visiting state
- When using actor
- 状态-动作值函数
- When using actor
, the cumulated reward expects to be obtained after taking at state
- When using actor
| Version | 核心思想 | 问题 | 改进 | 奖励 / Advantage |
|---|---|---|---|---|
| V3.5 | Monte-Carlo Advantage Actor-Critic | 必须等 episode 结束; | 用 Critic 学习状态价值 | |
| V4 | TD Advantage / A2C | Monte-Carlo 更新慢、噪声大 | 用一步 TD bootstrap 估计未来 |
Advantage Actor-Critic
上面的 V4。
基于价值的方法
Critic
- Critic 评估一个 actor
有多好 - 状态价值函数
- 在状态
下,当采取 actor 进行交互,期望最终获得的累积奖励
- 在状态
估计
- 蒙特卡罗(MC)方法
- critic 观测 actor
玩整局游戏
- critic 观测 actor
- 时序差分方法
- 有些应用的 episode 太长,所以延迟到一个 episode 结束再学习是效率太低。
Q-Learning
给定
- "更好":
,对所有的状态 没有额外的参数。它取决于 - 不适合连续动作
(稍后解决)
DQN
- 利用 DQN,
近似 (最优动作价值函数) - DQN 通过
选择动作 - 我们试图学习参数
改进——目标网络
- Online 网络输出:
- Target 网络输出:
- 计算 loss:
探索
- Epsilon Greedy:argmax / 随机
- Boltzmann Exploration:softmax
经验回放 Replay Buffer
在每次迭代:
- 对于每一个批量进行采样
- 更新 Q-function
Double DQN
解决
Dueling DQN
把
| Double DQN | Dueling DQN | |
|---|---|---|
| 解决问题 | Q值高估 | 状态价值学习效率低 |
| 核心思想 | 动作选择与评估分离 | Q拆成V+A |
| 改哪里 | target计算 | 网络结构 |
| 是否改变Q定义 | 否 | 是(分解Q) |
| 主要收益 | 更稳定 | 更高效 |
优先级经验回放
让 TD 误差越大的数据被抽样的概率越高。
Multi-step TD
前