确定性策略与随机策略

确定性策略

策略 (π) 描述了智能体的决策过程。在最简单的情况下,每个状态的策略是指智能体在该状态下应该执行的操作。这种类型的策略称为确定性策略。每个状态都被分配一个动作,例如对于状态$s_1$,有:$π(s_1) = a_1$。确定性策略可以显示在表格中,其中可以选择不同状态的操作:

随机策略

通常,策略为每个状态下的每个动作分配概率,例如 $π(s_1|a_1) = 0.3$。因此,该策略表示每个状态的所有可能动作的概率分布。这种策略称为随机策略。在随机策略中,可以选择多个动作,其中每个动作的概率为非零,所有动作的总和为 1。因此,可以说代理的行为可以用策略来描述,它将状态分配给动作的概率分布。该策略仅依赖于当前状态,而不依赖于时间或以前的状态。