强化学习中经典的探索策略

Posted on 2023-04-26 In 单智能体强化学习 Views:

经典的探索策略

Epsilon-greedy 探索策略。这种方法是最经典的，在 DQN 系列的算法经常被使用。
置信区间上限UCB。每一个选择对应一个乐观的index（回报的经验均值+confidence radius），智能体会选择index最大的动作。
- 公式第一项可以看成是利用
- 公式第二项就是探索，与该动作的被探索程度成正比
Boltzmann 探索。智能体根据由温度系数调节的 Q 值从玻尔兹曼分布 (softmax)中选择动作 \(a\)。表达式如下：\(\pi(a \mid s)=\frac{\exp (k Q(s, a))}{\Sigma_{a^{\prime}} \exp \left(k Q\left(s, a^{\prime}\right)\right)}\)
当神经网络用于函数逼近时，采用以下的探索策略
- 策略熵。将熵项加入到损失函数中，鼓励策略采取多种行动；
- 基于噪声的探索。噪声可以加到观测、动作甚至的参数空间中去。