智能体轨迹的评价:价值函数

价值函数的引入

强化学习问题归结为:智能体Agent在给定的Environment中,观察它的状态State,做出动作Action,并得到一定的奖励Reward。我希望能在这个环境中,通过不断地探索,找到一套最为合理地行为策略policy。

我们把Agent从初始状态开始一直到状态结束的过程称为一幕(episode)数据。通过计算一幕数据累计Reward的大小来判断policy的好坏程度。而我们把累计Reward转化为两个概念:状态的价值(用v 表示),在某状态下行为的价值(用q 表示)。他们统称为价值函数。

如果在一幕数据中,经历的状态全部都是价值最高的状态,或者做出的行为都是价值最高的行为,那么这就根据当前的价值函数得出的最优策略。

状态价值函数

在策略$\pi$和状态$s$下,采取一系列行动会到达终止状态。期间得到的累计折扣回报就是该策略下,状态$s$的价值,用$v_\pi(s)$表示。因为从状态$s$开始到终止状态的路径不唯一,为了确定性的衡量状态s的价值,$v_\pi(s)$一般是一个期望函数:

$$v_\pi(s)=E_\pi(G_t|S_t=s)=E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s)$$

与上面相同,还有一个概念:(状态-动作)价值函数

$$q_\pi(s,a)=E_\pi(G_t|S_t=s,A_t=a)=E_\pi(R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+...|S_t=s,A_t=a)$$

这里求期望是因为,在状态s下做动作a后的即时奖励虽然是确定的,但是缺要依概率转移到下一个状态$s^{\prime}$
,这个$s^{\prime}$是不确定的。因此通过求期望来消除价值函数的不确定性。

参考:

https://blog.csdn.net/Explore_OuO/article/details/115577409

https://www.jianshu.com/p/9484fb16c88b