强化学习的两大基石是:马尔科夫链和贝尔曼方程,所以,学习强化学习之前我们有必要了解一下贝尔曼本人的生平简介。

理查德·贝尔曼(英语:Richard Bellman,1920年8月26日-1984年3月19日),美国应用数学家,美国国家科学院院士,动态规划的创始人。贝尔曼曾是南加州大学教授,美国艺术与科学研究院研究院(1975年)以及美国国家工程院院士(1977年)。他在1979年被授予电气电子工程师协会奖,由于其在“决策过程和控制系统理论方面的贡献,特别是动态规划的发明和应用。”

强化学习简介

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。强化学习最早可以追溯到巴甫洛夫的条件反射实验,它从动物行为研究和优化控制两个领域独立发展,最终经理查德·贝尔曼之手将其抽象为马尔可夫决策过程 (Markov Decision Process,MDP)。

强化学习的奠基人

强化学习的发展历程如下所示:

  • 1956年Bellman提出了动态规划方法。
  • 1977年Werbos提出只适应动态规划算法。
  • 1988年sutton提出时间差分算法。
  • 1992年Watkins提出Q-learning 算法。
  • 1994年rummery提出Saras算法。
  • 1996年Bersekas提出解决随机过程中优化控制的神经动态规划方法。
  • 2006年Kocsis提出了置信上限树算法。
  • 2009年kewis提出反馈控制只适应动态规划算法。
  • 2014年silver提出确定性策略梯度(Policy Gradients)算法。
  • 2015年Google Deepmind提出Deep-Q-Network算法。

在2016年,AlphaGo击败李世石之后,融合了深度学习的强化学习技术大放异彩,成为这两年最火的技术之一。但是,纵观强化学习几十年的发展史可以看出,强化并不是一门新的技术。强化学习就是一个古老而又时尚的技术,其奠基人是理查德·贝尔曼。

贝尔曼与动态规划

在现实生活中,有一类活动的过程,由于它的特殊性,可将过程分成若干个互相联系的阶段,在它的每一阶段都需要作出决策,从而使整个过程达到最好的活动效果。因此各个阶段决策的选取不能任意确定,它依赖于当前面临的状态,又影响以后的发展。当各个阶段决策确定后,就组成一个决策序列,因而也就确定了整个过程的一条活动路线。这种把一个问题看作是一个前后关联具有链状结构的多阶段过程就称为多阶段决策过程,这种问题称为多阶段决策问题。在多阶段决策问题中,各个阶段采取的决策,一般来说是与时间有关的,决策依赖于当前状态,又随即引起状态的转移,一个决策序列就是在变化的状态中产生出来的,故有“动态”的含义,称这种解决多阶段决策最优化的过程为动态规划方法。

动态规划(Dynamic Programming,DP)是运筹学的一个分支,是求解决策过程最优化的过程。20世纪50年代初,美国数学家理查德·贝尔曼(英语:Richard Bellman)等人在研究多阶段决策过程的优化问题时,提出了著名的最优化原理,从而创立了动态规划。动态规划的应用极其广泛,包括工程技术、经济、工业生产、军事以及自动化控制等领域,并在背包问题、生产经营问题、资金管理问题、资源分配问题、最短路径问题和复杂系统可靠性问题等中取得了显著的效果。

动态规划基本思想

动态规划算法通常用于求解具有某种最优性质的问题。在这类问题中,可能会有许多可行解。每一个解都对应于一个值,我们希望找到具有最优值的解。动态规划算法与分治法类似,其基本思想也是将待求解问题分解成若干个子问题,先求解子问题,然后从这些子问题的解得到原问题的解。与分治法不同的是,适合于用动态规划求解的问题,经分解得到子问题往往不是互相独立的。若用分治法来解这类问题,则分解得到的子问题数目太多,有些子问题被重复计算了很多次。如果我们能够保存已解决的子问题的答案,而在需要时再找出已求得的答案,这样就可以避免大量的重复计算,节省时间。我们可以用一个表来记录所有已解的子问题的答案。不管该子问题以后是否被用到,只要它被计算过,就将其结果填入表中。这就是动态规划法的基本思路。具体的动态规划算法多种多样,但它们具有相同的填表格式。

参考

https://baike.baidu.com/item/%E5%8A%A8%E6%80%81%E8%A7%84%E5%88%92/529408?fr=aladdin

标签: none

[网站公告]-[2024年兼职介绍]


添加新评论