强化学习中经典的探索策略

Posted on 2023-04-26 In 单智能体强化学习 Views:

经典的探索策略

Epsilon-greedy 探索策略。这种方法是最经典的，在 DQN 系列的算法经常被使用。
置信区间上限UCB。每一个选择对应一个乐观的index（回报的经验均值+confidence radius），智能体会选择index最大的动作。
- 公式第一项可以看成是利用
- 公式第二项就是探索，与该动作的被探索程度成正比
Boltzmann 探索。智能体根据由温度系数调节的 Q 值从玻尔兹曼分布 (softmax)中选择动作 \(a\)。表达式如下：\(\pi(a \mid s)=\frac{\exp (k Q(s, a))}{\Sigma_{a^{\prime}} \exp \left(k Q\left(s, a^{\prime}\right)\right)}\)
当神经网络用于函数逼近时，采用以下的探索策略
- 策略熵。将熵项加入到损失函数中，鼓励策略采取多种行动；
- 基于噪声的探索。噪声可以加到观测、动作甚至的参数空间中去。

Posted on 2022-05-06 Edited on 2022-05-07 In 科研经验 Views:

Posted on 2022-05-04 Edited on 2022-05-07 In RL机器人控制 Views:

Posted on 2022-04-16 Edited on 2022-05-07 In 单智能体强化学习 Views:

策略梯度如下式：
- 其中, \(\pi_{\theta}(a \mid s)\) 为Actor， \(\Psi_{t}\) 称为Critic，此式是一个广义的AC框架。
\(\Psi_{t}\) 可以取以下几种：
- 轨迹总回报，\(\Sigma_{t=0}^{\infty} r_{t}\)
- 执行动作后的回报，\(\Sigma_{t^{\prime}=t}^{\infty} \boldsymbol{r}_{t^{\prime}}\)
- 加入基线的形式，\(\sum_{t^{\prime}=t}^{\infty} r_{t^{\prime}}-b\left(s_{t}\right)\)
- 状态-行为值函数，\(Q^{\pi}\left(s_{t}, a_{t}\right)\)
- 优势函数，\(A^{\pi}\left(s_{t}, a_{t}\right)\)
- TD-error，\(r_{t}+V^{\pi}\left(s_{t+1}\right)-V^{\pi}\left(s_{t}\right)\)
前三个critic直接利用轨迹的累积回报，由此计算出来的策略不存在偏差，但是由于是多步的累积回报，因此方差很大
后三个利用动作值函数，优势函数和TD偏差来代替累积回报，因而方差下，但是由于这三种方法都用到了逼近，因此计算出来的策略梯度存在偏差。当critic取后三个时，为经典的AC算法。

A2C使用优势函数代替Critic网络中的原始回报，可以作为衡量选取动作值和所有动作平均值好坏的指标。
优势函数：
意义：如果优势函数大于0，则说明该动作比平均动作好，如果优势函数小于0，则说明当前动作还不如平均动作好
- 理解：如果优势函数大于0 ，那么Q>V，V在里面可以表示一个平均动作下的价值

Posted on 2022-04-15 Views:

这是我的第一个博客！