强化学习入门建议

什么是强化学习?

强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡。不同于监督学习和非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。

如何入门强化学习?

相对来说,强化学习的学习难度更大。就拿计算机视觉来说,把握住图像特征提取的方法,然后多练习几个网络架构,就可以很好的入门CV领域。但是,对于强化学习来说,充斥大量的数学公式,理解难度更大,需要学习很久才能开窍才能入门。

由于需要的数学公式太多,所以最好的学习方式是“找到主线,串联起来”,把知识点之间的内在联系找到,这样才能理解的更透彻。基于这种思想,笔者给出了一条学习路线,大家可以参考一下。这条学习主线,从轨迹的定义开始,逐步延伸开来,串联了强化学习中的若干重点概念,十分有助于理解和记忆,值得大家学习和参考。

轨迹的定义:状态-动作序列 ->

  • 分支1:评价轨迹的好坏:值函数 -> 值函数分为状态值函数和状态-动作值函数 -> 值函数的表示方法:贝尔曼方程 -> 求解方程的两种方式:直接法和迭代法,而贝尔曼方程采用后者。
  • 分支2:状态到动作的映射引出“策略”的定义 -> 策略的初始化:随机矩阵 -> 策略可以分为:随机策略和确定性策略 -> 策略的优化:策略梯度