智能体的轨迹与策略
1、智能体的轨迹
轨迹,即状态和动作的一个序列:$[s_0,a_1,s_1,a_1,...]$。如下图所示:
2、智能体的策略
策略,本质就是映射,从状态到动作的映射,如下图所示,即称之为“策略”。策略表示为:$\pi$。
3、确定性策略与随机策略
强化学习当中的策略可以分为随机策略和确定性策略两类。关于确定性策略与随机策略,请移步:《确定性策略与随机策略》
轨迹,即状态和动作的一个序列:$[s_0,a_1,s_1,a_1,...]$。如下图所示:
策略,本质就是映射,从状态到动作的映射,如下图所示,即称之为“策略”。策略表示为:$\pi$。
强化学习当中的策略可以分为随机策略和确定性策略两类。关于确定性策略与随机策略,请移步:《确定性策略与随机策略》