MyBatis中文官网

专注于MyBatis框架、SQL知识、Java校招/面试

强化学习教程

强化学习的基本模型

智能体的状态-动作轨迹

智能体的轨迹与策略

确定性策略与随机策略

策略的初始化：随机矩阵

智能体轨迹的评价：价值函数

马尔可夫决策过程

高级知识

确定性策略和随机策略

on-policy与off-policy的区别

在线强化学习与离线强化学习

智能体的轨迹与策略

更新时间: 2022-07-15
阅读：1996 次

1、智能体的轨迹

轨迹，即状态和动作的一个序列：$[s_0,a_1,s_1,a_1,...]$。如下图所示：

2、智能体的策略

策略，本质就是映射，从状态到动作的映射，如下图所示，即称之为“策略”。策略表示为：$\pi$。

3、确定性策略与随机策略

强化学习当中的策略可以分为随机策略和确定性策略两类。关于确定性策略与随机策略，请移步：《确定性策略与随机策略》