2017年10月26日晚7点,科学前沿进展名家系列讲座第95讲于中国科学院大学玉泉路校区阶一5教室顺利举行。本次讲座的主题是“自适应动态规划最优控制基本原理”,中国科学院自动化所的魏庆来研究员向同学们展示了自适应动态规划相关的知识以及他在此方面的研究成果。
由于同学们对自适应动态规划不甚了解,魏庆来老师由“什么是动态规划”入手,介绍了动态规划最优性原理——“整体最优必然是局部最优”。但在将多级决策转化为多个单级决策时却会存在“维数灾”的问题,即随着级数空间的增长计算量及所要考虑的情况都会呈指数倍增长,由此引出本次讲座的话题——自适应动态规划。
随后,魏庆来老师介绍了自适应动态规划(ADP)的基本理论。自适应动态规划由Werbos在其博士论文中首次提出,其基本思想是运用函数近似的方法控制系统不断给执行系统做出评判并调整至更优的执行策略,而这个过程不断反复,以求达到较优的策略,即Self-learning。自适应动态规划是动态规划、强化学习、神经网络三者的综合。其整个结构由三部分组成——动态系统、执行函数和评判函数。而且每个部分都可由神经网络代替。动态系统可以通过神经网络进行建模、执行网络用来近似最优控制策略、评判网络用来近似最优性能指标函数。简单地说,自适应动态规划就是一个给定规则和初值的次学习过程。而自适应动态规划可分类为HDP(Heuristic dynamic programming)、DHP(Dual heuristic dynamic programming)和GDHP(Globalized DHP)。三者的计算精度依次增高,同时计算量与计算速度也依次增加。
紧接着,魏庆来老师介绍了基于自适应动态规划的迭代自适应动态规划基本思想以及分类,并对迭代自适应动态规划的两种类型——值迭代自适应动态规划和策略迭代自适应动态规划进行了比较。值迭代初始条件为零且迭代性能指标函数单调非降收敛而策略迭代初始为admissible control law其迭代指标函数单调非增收敛;值迭代的最优控制稳定但迭代控制稳定性未知,策略迭代则在任意迭代控制上稳定;同时,值迭代和策略迭代均收敛到最优性能指标函数。
最后,魏庆来老师结合自己的研究向大家介绍了自适应动态规划的进展和应用,并向同学们讲述了自己研究过程中遇到的困难以及解决办法。魏庆来老师所举的电池智能优化网络例子经过计算可节省32%的电费令大家体会到自适应动态规划的神奇和实用,而魏老师一个问题思考了十多年最后“灵感突显”将问题解决的故事则让同学们深刻感受到科学家锲而不舍的坚持和探索精神。
临近尾声,魏庆来老师就同学提出的问题向大家介绍了“阿尔法狗”(AlphaGo)的发展过程以及自适应动态规划在其中起到的作用。讲座在热烈的掌声中圆满结束。(文/梁阳光 图/杨依涵 来源 国科大记者团)
讲座现场
主讲人介绍:
魏庆来,中科院自动化所研究员。主要研究自学习控制,自适应动态规划,智能控制,最优控制,智能电网及其工业。在国内外主流学术期刊和高水平国际会议上发表论文120余篇,SCI论文71篇,出版专著3部,撰写图书章节2章。主持基金课题12项,包括国家自然科学基金3项,省部级基金4项等。授权专利15项,软件著作权登记17项。获2017年国家自然科学基金优秀青年基金,2017年中国自动化学会杨嘉圳科技奖,2017年中国自动化学会青年科学家奖,2016年亚太神经网络学会青年学者奖,2015年张嗣瀛优秀青年论文奖,2015年北京市科学技术奖,2014年江苏省双创人才奖,2011年自动化学报优秀论文奖等。担任多本国内外相关领域期刊编委、客座编委,曾任IEEE Transactions on Neural Networks and Learning Systems编委,任IEEE CIS Beijing Chapter, Secretary。 在SNN2017, ICONIP2017, WCICA 2016, WCCI 2014等13项国际相关领域学术会议上担任重要职务。
延伸阅读:
“科学前沿进展名家系列讲座”创办于2014年9月,是中国科学院大学为本科生开设的必修课程,同时欢迎研究生与教职工参加,由中国科学院大学本科部主办,讲座召集人为周琪院士。该课程按照数学、物理、化学、生物、材料、计算机、天文、电子信息工程、环境九个专业,邀请相关科学领域的院士等知名专家开展专题讲座。通过讲述科学故事、介绍相关学科方向的科学前沿进展,让学生在本科阶段了解不同学科的科研方向与主要进展,拓宽学生的学术视野,为他们最终选择学科专业与专业方向提供丰富的判断依据。