格里菲斯实验 格里菲斯大学Ljubo Vlacic:控制与决策系统如何创造未来?

2019-02-06
字体:
浏览:
文章简介:2018年第五期(总第二十九期)"钱学森国际杰出科学家系列讲座"于9月5日在中科院自动化研究所举办.本期讲座邀请到澳大利亚格里菲斯大学Ljubo Vlacic教授做题为"Inventing the Future: Supremacy of Control & Decision Making Systems"的报告.报告将着眼于展示在创造社会所需工具时的反馈力量和其基础理论,它强调了控制系统理论的优点,而这种优点不仅会改变未来,更会创造未来.Ljubo Vla

2018年第五期(总第二十九期)“钱学森国际杰出科学家系列讲座”于9月5日在中科院自动化研究所举办。本期讲座邀请到澳大利亚格里菲斯大学Ljubo Vlacic教授做题为“Inventing the Future: Supremacy of Control & Decision Making Systems”的报告。

报告将着眼于展示在创造社会所需工具时的反馈力量和其基础理论,它强调了控制系统理论的优点,而这种优点不仅会改变未来,更会创造未来。Ljubo Vlacic教授将反思控制系统和人工智能之间的协同作用,并将它们视为几乎每个智能系统和支撑工程控制论的两个基本和互补的组成部分。

格里菲斯实验 格里菲斯大学Ljubo Vlacic:控制与决策系统如何创造未来?

报告主题

报告内容

主持人:非常荣幸邀请到来自澳大利亚格里菲斯大学的Ljubo Vlacic教授进行题为“Inventing the Future: Supremacy of Control & Decision Making Systems”的报告,首先请允许我对Ljubo Vlacic教授进行介绍。

Ljubo Vlacic是格里菲斯大学综合与智能系统研究所的教授。他是一位控制系统科学家和实践者,以对无人驾驶车辆和智能控制系统研究与开发的贡献而闻名。他的研究成果经常登上新闻头条,并在全球媒体传播。他在工业界和学术界担任多个领导者的职务。

格里菲斯实验 格里菲斯大学Ljubo Vlacic:控制与决策系统如何创造未来?

为表彰他的成就,他获得了IEEE成就奖(全球),Lionel Hooke爵士奖,昆士兰年度专业工程师奖和黄金海岸商业活动大使奖等19个奖项。他主持过10次国家和国际科学会议。

目前,Ljubo Vlacic担任:(i)IEEE智能交通系统杂志总编辑;(ii)澳洲工程师学院董事会主席;(iii)昆士兰IET网络主席;(iv)2019 IEEE智能交通系统会议ITSC2019总主席。并且他还毕业于音乐学院(小提琴),并与专业的乐团和交响乐团合作演奏过。让我们掌声欢迎Ljubo Vlacic教授。

格里菲斯实验 格里菲斯大学Ljubo Vlacic:控制与决策系统如何创造未来?

主讲嘉宾:感谢精彩的介绍。首先,很荣幸今天能够进行本次讲座,我十分仰慕和尊敬钱学森教授及其为国家所做出的贡献,因此非常感谢王飞跃教授诚挚的邀请。

本次讲座内容主要围绕“控制与决策系统的奇妙世界(Amazing World of Control & Decision-Making Systems)”这一主题,旨在阐述论证反馈的作用及其用于研发社会所需机器人的理论基础,突出强调能够以构建和开创未来的方式展望前景的控制系统理论本质。

钱学森国际杰出科学家系列讲座是思考控制系统与人工智能协同作用的一个良好契机。这两者可被看作智能系统和基础工程控制论的两种基本且互补的组成部分。

反馈控制(Feedback Control)可由在反馈中结合的物理实际或人工设计对象(Object)表示。其作用是应对系统所受未知外部影响而导致的被控对象未知动态变化,目标是利用反馈以保持系统整体动态稳定。

负反馈原则(Principle of negative feedback)是反馈控制系统运行的实质。其中,误差信号作为衡量系统实际与期望运行状态(Desired regime)偏差的指标,用以获知实际运行状态。从而使得在已知期望运行状态和由反馈信号表示的实际运行状态的情况下,能够依据两者的偏差思考并尝试采取相应的调整措施。

偏差(Deviation)通常由被控对象运行性能的未知变化或其所受未知扰动(Disturbances)导致,抑或可能同时受两者影响。控制器(Controller)的作用是尽可能预测这些变化,保护被控对象使其免受变化的影响,以及即使处于外部扰动的持续作用下,也能消除偏差并使被控对象重新回到稳定状态。

控制系统(Control Systems)控制与维持未知对象在未知环境条件下工作运行的能力源于自身的学习和适应(Learning and Adaption)能力。

闭环控制系统的关键原理可简要概述为:“为了解决实时控制问题,需要确定对象的基本特性。控制器在执行控制操作的同时也对其与对象的关系及影响关系变化的因素进行自学习。在此过程中,控制器将会寻找以最佳方式调控因素的规律,甚至预测其进一步发展变化。”

目前,控制系统已在医学、机器人学和机电一体化、通信、水资源以及工业制造等行业领域得到广泛应用。一般来说,其隐含在硬/软件系统中实时执行特定应用,并在许多先进技术解决方案中发挥重要作用。

由于反馈控制理念的应用,仅在医疗健康产业领域就已取得相当多令人振奋的创新性解决方法成果。举例来说,其中包括呼吸系统(The respiratory system)、肝脏和胰腺(The liver and pancreas)、动脉血压调节(Regulation of arterial pressure)、胰岛素分泌控制(Control of insulin secretion)、心脏起搏器(Pacemaker)、人工心脏(Artificial heart)等方面的应用。

那么,为什么反馈控制理念具有如此强大的作用并能够应用于众多领域?

以图中似乎正在排放大气污染物的工业厂房为例,当工厂的运行系统发生故障时,管理人员通过查阅书籍的方法学习相关计算控制的内容以判断系统运行状况。这可能使得情况很快就变得相当复杂,在用一整张纸都写不下的方程公式中几乎找不到可行解答。而且这些方程公式的作用有限,甚至从某种程度上来看是错误的,因而使计算控制变得更加困难。

当这种情况发生时,工程学方法就成为解决问题的另一种选择。确定并测试相应的设置、收集大量数据进行理论验证或构建查找表,尝试以更加简单直观的形式替换复杂的方程公式对系统状态进行描述表达。事实上,工程师明确地知道每一个模型仅在某些方面是切实有效的,无论是复杂还是简单的方法。

因此,模型的适用性是有限的。但即便知道模型可能不需要包含所有的影响因素,细节过程的不足也可能会使得模型的构建受到质疑,因为甚至最简单的模型也能够破坏模型的易变性以及物理系统本身。这就是控制理论能够发挥作用并提供帮助之处。

控制领域的科学家和工程师对想法和方法的描述表达,不仅利用数学方程公式,而且还通过严谨的实验论证。控制律(Control Law)表现为具有普适性且能够缩小现实世界与理想世界的差距。实际上,H. S. Tsien(钱学森)曾在其工程控制论领域的重大研究成果中谈到,“任何学科的数学性难题通常都是人为的。

几乎不需要进一步解释,这个问题通常可以归结为研究工程师的水平”。这就是Yakov. Z. Tsypkin(齐普金)和H. S. Tsien(钱学森)的看法所带来的帮助和启示。

因此例如对于上述工厂来说,为解决控制问题需要确定对象的基本特性。同时应用控制器,其能够在执行控制操作的同时对其与对象的关系及影响关系变化的因素进行自学习,并将会寻找以最佳方式调控因素的规律,甚至预测其进一步发展变化。

那么反馈的作用能力体现在哪里?查阅文献可以发现一系列相关应用,其中一些甚至与工程研究领域完全无关,例如经济学(Economics)、生理现象(Physiological Phenomena)、生命系统(Living Systems)、量子力学(Quantum Physics)和社会科学(Social Science)等。

控制系统的成功应用案例之一与高等教育(Higher Education)相关。在西方国家,高等院校入学申请体系因自身的高投资回报率而成为一个非常重要的产业领域。且众所周知,其所面临的控制管理压力随着所接受国际学生申请数量的增多而加大。接下来的示例阐述将展示反馈控制在某些情况下的重要性。

假设存在一个大学招生流程,用于建立如上图所示相应的控制系统。其中,输入和输出分别为期望学生数量和实际学生数量。该系统在一般控制系统结构的基础上增加了反馈信号,用于在比较当前与期望学生数量的差值后反馈所得招生比例。

招生部门将使用该系统确定招收学生数量并审批学生申请,输出的实际学生数量同时受退学率(drop out rate)、市场和其他策略(marketing & other strategies)以及政府政策(government policy)变化的影响。

这是一个多变量控制系统的示例,其各输入之间会进行相互补充协调。根据多变量控制系统理论,这类系统无法获得最优结果,即达到整体绝对最优状态,但通常可通过控制使其达到局部最优状态。此外,若其中存在一个具有相对主导作用的输入,那么系统可能会逐步达到一个稳定状态,除非其由自身控制则无法对其加以引导。

就控制系统理论来说,若未引入反馈控制环节且同时考虑各方面因素的影响,盲目增加国际学生数量会使得系统偏离稳定状态。上述案例充分反映并解释了反馈控制理论影响西方国家重要行业领域的方式途径。

与人工工程系统相似,机器人(Artificial Beings)的大量产生由人类(Human Beings)对丰富物质资源和提高生活质量的愿望所驱动。人们对机器人的固有印象为:机器人是能够执行一系列预编程任务的设备。

通常来说,人们试图对自身进行调整以适应机器人及其大量控制操作,但如果将这种使用方式持续下去,未来人类将不得不一直为机器人及其操作运行提供服务。这将造成一种矛盾冲突的状况,即人类为机器人服务而非其为人类服务。然而实际上这正是人类目前所处的状况,严重受制于电脑和个人设备的看管和使用。新兴技术在当今社会的广泛使用未能给予人类更多时间以享受活动本身的乐趣。

幸而,机器人目前已不再仅被看作能够实施重复操作的自动设备。这类简单的重复工作现在主要由机械手臂或机械操作器负责承担,而智能机器人则有望成为人类在工作和生活中的协助者以进一步满足使用需要,其将不仅能够识别和理解人类的日常活动,还可以根据人类的特定需求对自身动作进行调整。

机械操作器(Robot Manipulators)与智能设备或机器人(Intelligent Robots - Artificial Beings)两者之间存在很大差异。就机械操作器来说,其能够检测与感知周围环境瞬间或突然的变化并执行操作动作。

毫无疑问,智能机器人也能够检测和感知信号并实施操作行为,但两者的区别在于:智能机器人能够在此基础上处理外部信号、观察和判定环境状况、学习已有经验结果并据此决定后续操作行为。因此,对于特定操作功能的实现来说,机器人的研究与制造十分重要。且由此可见,人类所创造的现代机器人能够作为人类的伙伴或助手提供陪伴和帮助服务,并按人类意愿实施操作动作。

在日常生活中可以找到大量相关应用实例。

在我看来,未来的发展趋势将是能够适应人类的机器人(Human Adaptive Robotics)。其不是仅局限于能够实施动作和执行辅助操作的机械操作器,而是能够处理信息、学习经验以及决定和实施最优操作的智能设备。

不仅是单一的机器人或人类之间的相互作用(interactions),研究还应针对人类与机器人的交互关系展开。目前,对于图中下方箭头所代表的机器人之间交互关系的研究已经相当成熟,而图中上方箭头所代表的人类之间的交互关系属于社交关系的一部分与科技领域研究无关,所以接下来将要讨论的是上图中间箭头所代表的人类与机器人之间的双向交互关系。

人类使用语言、表情和动作等方式对自身的观点、意愿和情感进行表达。这时,若想建立人类与机器人之间的交互关系,需要后者能够在识别和理解人类所表达内容的基础上对自身进行表达,即在识别、处理和理解信息后向人类进行反馈。这就是人类和机器人之间的沟通与交互方式。而对两者交互关系研究的目的是促进人类与机器人或智能设备之间的协作关系。

协同系统(Co-operative Systems)主要用于研究人类与机器人之间的双向相互作用,致力于建立和实现两者间的认知交互。

虽然协同控制与决策系统(Cooperative Control & Decision Making Systems)的定义十分简单易懂,但实际上其模拟、分析和构建却难以实现。这类系统有助于促进跨学科和多学科的研究,推动解决协同系统问题技术的发展,已逐渐成为各类应用的重要解决方法。

日常生活中存在着各种各样的协同系统,例如课堂中的学生和老师、工作中的职员、交通出行中的驾驶员和行人、聚会中的参加者、空中的飞机以及搜救作业中的机器人。此外,军事侦察和攻击任务中的无人机或战场上的机器人也可构成协作系统。

然而,这其中有一些协同系统并不总能顺利进行良好的协作,例如上图所描绘的情况。协同系统能够影响人类与机器人之间的协作关系,但却无法协调人类之间的社交关系。

协同系统的研究主要集中于以下问题:人类与机器人能否在可持续交通系统概念、计算机社交或教学游戏场景的背景下进行合作交互?二者能否进行相互帮助?以及二者能否进行彼此替换?举例来说,在进行电脑游戏时无法获知游戏对手的身份,若对手是机器人,则其行为表现应能够与人类相似。

从这个角度来看,智能控制系统(Intelligent Control System)应能够感知和检测(Sense and detect)外部变化、学习(Learn)已有经验、制定(Decide)并实施(Act)最优解决方案、以及持续进行相关工作(Stay tuned)。这些实际上均由人类行为总结所得。

若以控制系统理论对比探讨机器人的功能,其应能够感知和检测物体、学习和处理信息、制定和实施决策、持续关注变化以及在必要时调整并适应变化。在这里我想表述的是,人工智能系统和控制系统并没有什么不同,区别仅在于专家学者通常更倾向于将其归入两个不同的学科领域。

机器人应像控制系统由一系列对象组成,能够保持实时运行,具有可靠性和鲁棒性并能够执行关键任务操作。因此,机器人不只是机器学习设备,而是认知与协同控制系统设备。

对于人类与机器人之间的复杂交互和协同系统技术在交通系统中发展的研究由人类的愿景所引导,即在不久的将来无人驾驶车辆能够与人类驾驶车辆共享道路资源。这一愿景昭示了交通运输业的新纪元,同时展望了可持续城市交通解决方案的发展前景。值得注意的是,在1991年这个愿景提出时,谷歌、无人车等事物还未出现。在这一时期,研究的目标是设想交通系统的未来发展变化,以从社会需要的角度探究最佳的可行解决方案。

鉴于当时的技术发展水平不高,研究主要完成了多移动机器人协调(Cooperative Mobile Robots)的研发及后续道路测试。在2002年,成功实现了无人驾驶车辆的多车协同驾驶(Cooperative Driving V2V - driverless only)。

随后,进一步探究相同路况下无人驾驶车辆与传统人类驾驶车辆的协同驾驶(Cooperative Driving V2V – interoperability V2I)。最后,研究进入协同智能交通系统(Cooperative Intelligent Transportation System, C-ITS)时期。

研究发展的主要动因是当前城市交通系统理念(the current urban transport system concept)并不具备可持续性,具体表现为:其未能消除由驾驶员过失引发的道路交通事故;其依赖石油且不利于环境保护和身体健康;以及因社会成员并不能拥有同等的交通系统使用权利,其有悖于社会公正。

这必然不是我希望下一代所继承得到的生活状况。因此,在这种强烈动机的驱使下,需特别针对智能交通系统理念和协作式智能交通系统理念的深化进行研究。

集成多模式智能交通系统(Integrated Multi-Modal Intelligent Transportation System)的主要原则包括,其应为协同的(Co-operative)、平行的(Parallel)、可靠的(Reliable)和容错的(Fault Tolerant)并具有网络弹性(Cyber Resilient)。

这也正是人工智能与控制系统两个领域的研究人员在制定解决方案方面的主要区别。

毫无疑问,人工智能研究人员通常能够由新兴技术方法得出解决方案,但通常来说,这类技术方法会得出多种不同的解决方案,可能即使在相同的环境条件下其也不可复现。因此,从这个角度来看,人工智能技术对运行中时常发生的故障的容错性不足,也不具备足够的可靠性和鲁棒性以及抵抗扰动的复原性。

正如在讲座刚开始时所说,我认为控制系统的作用应为协助系统应对无法提前获知的扰动,并且即使在扰动信号持续存在时维持整个系统的正常运行。这就是控制系统在智能交通系统运行中的期望实现目标,同时也是探究智能交通系统和网络安全攻击问题的原因之一。因为对系统来说,网络安全攻击与外部扰动无异,同样属于系统可能遭受的各类扰动之一。所以从控制系统的角度来看,应对网络安全攻击加以研究并将其视为典型系统扰动。

在上图所示的控制系统中,大量用户在协同交互过程中形成了系统的配置结构。显然,一个简单的网络攻击就能够破坏系统的正常运行。

计算机科学与人工智能领域的从业人员研究网络安全问题的目的是对系统本身进行防护以避免其受到网络安全攻击。但事实上,网络攻击的发生是不可避免的。而如果以控制系统理论的角度研究相同的问题,在不能避免网络攻击的情况下,研究人员会尝试寻找方法帮助系统应对网络攻击、完成基本运行工作并增强其对网络攻击的复原力。

这是控制系统工程师与人工智能研究人员两者在解决问题方面的另一个主要区别。其主要研究思路是依据控制系统理论使控制系统在扰动的影响下学习已有经验、维持系统正常运行以及避免系统崩溃并恢复系统稳定,这就是关键研究问题。

一旦一项认知与协作决策技术得到研发,其将能够使人类与机器人以动态且可靠的方式进行交互与合作。并且,我认为只有控制系统与人工智能交叉领域的研究人员才能成功解决这些重要问题。

然而,研究有时仍需十分小心谨慎。Derek Atherton教授曾这样说到:“毫无疑问,没有人能够参透人类的智慧及其衍生产物。”

通过查阅以往研究成果可以发现,许多非常受人尊敬的专家学者过去所发表的论断在现在看来都具有明显的错误,具体如上图所示。因此,对于未来发展方向的探讨具有非凡的意义。但与此同时,需要十分严谨地提出个人见解并接纳未知变化的发生。

以上就是今天讲座的所有内容。

Q1:本人最近正在研究增强学习(reinforcement learning )在智能交通系统中控制系统的应用。我想请问教授,增强学习中的奖励(reward)和状态(state)未被定义为反馈是否出于某种具体原因?

A1:非常感谢提问,这个问题十分符合我想要通过此次讲座表达的内容。对于研究机器人的两类不同学术群体,即控制系统领域的工程师和人工智能或计算机科学领域的专家学者,其探究对象相同但通常倾向于与彼此互相区分。这就是两者使用不同术语的原因,即使术语所代表对象的实际本质相同。因此,强化学习中的奖励与状态相当于控制系统中反馈信号,它们之间并不存在本质区别。

Q2:请问您是否认为人类将会被智能机器人取代?

A2:我在刚才讲座中已尝试回答了这个问题,即未来的研究发展趋势是能够适应人类的机器人。具体来说,即通过机器人的使用以协助人类进行工作,而非人类花费更多时间以适应协调智能设备。因此,发展应倾向于能够满足人类社会需求的新兴技术。

毫无疑问,未来机器人的反应会更加灵敏、行动会更加迅速或是力量更加强大,甚至会出现在决策方面非常智能的机器人。但我坚信人类才是最强大有力的规则制定主体,只有人类才能推动社会不断发展。

Q3:以往的研究主要运用数学工具设计控制系统,我想请问何种方式更适用于目前处理社会信号的控制系统的研究,例如协同驾驶系统?仿真是否为一个合适的研究方法?

A3:仿真是能够减少研究成本的解决方法之一,但方法理论的测试验证是研究的必经阶段。而对于数学方法的使用,应遵循多方决策制定理论。例如,针对协同驾驶系统,假设有3或4辆车在交叉路口相遇。在没有交通信号灯指示的情况下,需应用特定的数学理论使其相互协调、分配并决定交叉路口优先路权。同时,数据工具还有利于提高解决方案的鲁棒性。因此,我认为应尽可能坚持使用数学工具或方法,当然在具体应用时可对其进行简化。