智能体的状态-动作轨迹
1、轨迹的定义
轨迹,即状态和动作的一个序列:$[s_0,a_1,s_1,a_1,...]$。如下图所示:
2、轨迹的符号表示
轨迹的英文为:trajectory,音标为[trəˈdʒektəri]
,希腊字母表示为:$\tau$,其发音如下所示:
3、状态-动作的映射:策略
根据当前状态如何选择动作,这个过程就是决策过程,即生成策略的过程。
策略,本质就是映射,从状态到动作的映射,即称之为“策略”。策略表示为:$\pi$。更多内容请移步于:《智能体的轨迹与策略》
轨迹,即状态和动作的一个序列:$[s_0,a_1,s_1,a_1,...]$。如下图所示:
轨迹的英文为:trajectory,音标为[trəˈdʒektəri]
,希腊字母表示为:$\tau$,其发音如下所示:
根据当前状态如何选择动作,这个过程就是决策过程,即生成策略的过程。
策略,本质就是映射,从状态到动作的映射,即称之为“策略”。策略表示为:$\pi$。更多内容请移步于:《智能体的轨迹与策略》