强化学习中经典的探索策略
经典的探索策略
Epsilon-greedy 探索策略。这种方法是最经典的,在 DQN 系列的算法经常被使用。
置信区间上限UCB。每一个选择对应一个乐观的index(回报的经验均值+confidence radius),智能体会选择index最大的动作。
- 公式第一项可以看成是利用
- 公式第二项就是探索,与该动作的被探索程度成正比
Boltzmann 探索。智能体根据由温度系数调节的 Q 值从玻尔兹曼分布 (softmax)中选择动作 \(a\)。表达式如下:\(\pi(a \mid s)=\frac{\exp (k Q(s, a))}{\Sigma_{a^{\prime}} \exp \left(k Q\left(s, a^{\prime}\right)\right)}\)
当神经网络用于函数逼近时,采用以下的探索策略
- 策略熵。将熵项加入到损失函数中,鼓励策略采取多种行动;
- 基于噪声的探索。噪声可以加到观测、动作甚至的参数空间中去。