强化学习中经典的探索策略

经典的探索策略

  1. Epsilon-greedy 探索策略。这种方法是最经典的,在 DQN 系列的算法经常被使用。

  2. 置信区间上限UCB。每一个选择对应一个乐观的index(回报的经验均值+confidence radius),智能体会选择index最大的动作。

    • 公式第一项可以看成是利用
    • 公式第二项就是探索,与该动作的被探索程度成正比
  3. Boltzmann 探索。智能体根据由温度系数调节的 Q 值从玻尔兹曼分布 (softmax)中选择动作 \(a\)。表达式如下:\(\pi(a \mid s)=\frac{\exp (k Q(s, a))}{\Sigma_{a^{\prime}} \exp \left(k Q\left(s, a^{\prime}\right)\right)}\)

  4. 当神经网络用于函数逼近时,采用以下的探索策略

    • 策略熵。将熵项加入到损失函数中,鼓励策略采取多种行动;
    • 基于噪声的探索。噪声可以加到观测、动作甚至的参数空间中去。