强化学习入门建议

什么是强化学习？

强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

相对来说，强化学习的学习难度更大。就拿计算机视觉来说，把握住图像特征提取的方法，然后多练习几个网络架构，就可以很好的入门CV领域。但是，对于强化学习来说，充斥大量的数学公式，理解难度更大，需要学习很久才能开窍才能入门。

由于需要的数学公式太多，所以最好的学习方式是“找到主线，串联起来”，把知识点之间的内在联系找到，这样才能理解的更透彻。基于这种思想，笔者给出了一条学习路线，大家可以参考一下。这条学习主线，从轨迹的定义开始，逐步延伸开来，串联了强化学习中的若干重点概念，十分有助于理解和记忆，值得大家学习和参考。

轨迹的定义：状态-动作序列 ->

分支1：评价轨迹的好坏：值函数 -> 值函数分为状态值函数和状态-动作值函数 -> 值函数的表示方法：贝尔曼方程 -> 求解方程的两种方式：直接法和迭代法，而贝尔曼方程采用后者。
分支2：状态到动作的映射引出“策略”的定义 -> 策略的初始化：随机矩阵 -> 策略可以分为：随机策略和确定性策略 -> 策略的优化：策略梯度