智能体轨迹的评价：价值函数

价值函数的引入

强化学习问题归结为：智能体Agent在给定的Environment中，观察它的状态State，做出动作Action，并得到一定的奖励Reward。我希望能在这个环境中，通过不断地探索，找到一套最为合理地行为策略policy。

我们把Agent从初始状态开始一直到状态结束的过程称为一幕(episode)数据。通过计算一幕数据累计Reward的大小来判断policy的好坏程度。而我们把累计Reward转化为两个概念：状态的价值(用v 表示)，在某状态下行为的价值(用q 表示)。他们统称为价值函数。

如果在一幕数据中，经历的状态全部都是价值最高的状态，或者做出的行为都是价值最高的行为，那么这就根据当前的价值函数得出的最优策略。

在策略$\pi$和状态$s$下，采取一系列行动会到达终止状态。期间得到的累计折扣回报就是该策略下，状态$s$的价值，用$v_\pi(s)$表示。因为从状态$s$开始到终止状态的路径不唯一，为了确定性的衡量状态s的价值，$v_\pi(s)$一般是一个期望函数：

$$v_\pi(s)=E_\pi(G_t|S_t=s)=E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s)$$

与上面相同，还有一个概念：(状态-动作)价值函数

$$q_\pi(s,a)=E_\pi(G_t|S_t=s,A_t=a)=E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s,A_t=a)$$

这里求期望是因为，在状态s下做动作a后的即时奖励虽然是确定的，但是缺要依概率转移到下一个状态$s^{\prime}$
，这个$s^{\prime}$是不确定的。因此通过求期望来消除价值函数的不确定性。

参考：