确定性策略与随机策略

确定性策略

策略 (π) 描述了智能体的决策过程。在最简单的情况下，每个状态的策略是指智能体在该状态下应该执行的操作。这种类型的策略称为确定性策略。每个状态都被分配一个动作，例如对于状态$s_1$，有：$π(s_1) = a_1$。确定性策略可以显示在表格中，其中可以选择不同状态的操作：

随机策略

通常，策略为每个状态下的每个动作分配概率，例如 $π(s_1|a_1) = 0.3$。因此，该策略表示每个状态的所有可能动作的概率分布。这种策略称为随机策略。在随机策略中，可以选择多个动作，其中每个动作的概率为非零，所有动作的总和为 1。因此，可以说代理的行为可以用策略来描述，它将状态分配给动作的概率分布。该策略仅依赖于当前状态，而不依赖于时间或以前的状态。