智能体的轨迹与策略

1、智能体的轨迹

轨迹,即状态和动作的一个序列:$[s_0,a_1,s_1,a_1,...]$。如下图所示:

2、智能体的策略

策略,本质就是映射,从状态到动作的映射,如下图所示,即称之为“策略”。策略表示为:$\pi$。

3、确定性策略与随机策略

强化学习当中的策略可以分为随机策略和确定性策略两类。关于确定性策略与随机策略,请移步:《确定性策略与随机策略》