智能体的状态-动作轨迹

1、轨迹的定义

轨迹,即状态和动作的一个序列:$[s_0,a_1,s_1,a_1,...]$。如下图所示:

2、轨迹的符号表示

轨迹的英文为:trajectory,音标为[trəˈdʒektəri],希腊字母表示为:$\tau$,其发音如下所示:

3、状态-动作的映射:策略

根据当前状态如何选择动作,这个过程就是决策过程,即生成策略的过程。

策略,本质就是映射,从状态到动作的映射,即称之为“策略”。策略表示为:$\pi$。更多内容请移步于:《智能体的轨迹与策略》