在线强化学习与离线强化学习

强化学习分为两大类:online RL(在线强化学习) 和 offline RL(离线强化学习)

在线强化学习

学习过程中,智能体需要和环境进行交互。并且,在线强化学习又可分为on-policy RL和off-policy RL。on-policy采用的是当前策略搜集的数据训练模型,每条数据仅使用一次。off-policy训练采用的数据不需要是当前策略搜集的。on-policy RL算法有:REINFORCE、A3C、PPO 等,而off-policy RL算法有:Q-learning、DQN、DDPG、SAC 等。

离线强化学习

学习过程中,不与环境进行交互,只从dataset中直接学习,而dataset是采用别的策略收集的数据,并且采集数据的策略并不是近似最优策略。

$P\left(x_{t+1} \mid x_{t}, x_{t-1}, \ldots, x_{1}\right)=P\left(x_{t+1} \mid x_{t}\right)$