确定性策略和随机策略

强化学习当中的策略可以分为随机策略和确定性策略两类。

1、确定性策略

确定性策略是输入一个状态$s$,策略会给出一个确定的动作$a$,可以用以下形式表示。$\mu$表示的是确定性策略。$t$时刻的状态写作$s_t$。$$t时刻在$s_t$状态下采取的动作为$a_t$。

$$a_t=\mu(s_t)$$

2 随机策略

随机策略是输入一个状态$s$,输出的是动作分布。随机策略通常用$\pi$表示。对于$s_t$条件下,每一个动作都是以概率被选取。

$$a_t \sim \pi(\cdot|s_t)$$

随机策略可以根据动作是连续的还是离散的进行分类。连续动作是指动作可以连续取值,比如说,动作可以是力,力的数值可以用连续的数值表示,一般连续动作的取值是无法穷举的。而离散的动作比如在玩打飞机的时候,动作是上,下,左,右这种可以穷举的值。离散动作对应的随机策略称为分类策略。连续动作对应的随机策略称为对角高斯策略