6月29日下午,第23期AIR学术沙龙如期举行。本期活动荣幸地邀请到了AIR副教授周谷越为我们做题为《从仿真到现实:走进千家万户的智能机器人》的报告。
本次活动由AIR副院长、清华大学计算机科学与技术系长聘教授刘洋主持,AIR官方视频号和b站同步直播。
周谷越,现任清华大学智能产业研究院副研究员/副教授、协同视觉与机器人实验室(DISCOVER Lab)主任。2014年取得香港科技大学的博士学位,师从国际知名机器人专家、硬科技创业教父李泽湘教授。
周谷越博士于2012年初加入大疆创新(DJI),担任核心团队成员,资深科学家,资深产品经理,计算机视觉和智能机器人领域专家,先后创建并负责计算机视觉、智能制造、入门级无人机和 STEAM 教育等技术和产品团队。在核心技术研发方面,周谷越博士曾带领团队突破了小型无人机机载自动驾驶系统的关键技术,相关成果荣获2019年广东省唯一的科技进步特等奖。周谷越博士已取得国内外专利授权70余项,其中24项为美国发明专利,相关技术广泛应用于大疆集团的全系列无人机产品,销往全球100余个国家,应用于电力巡检、消防救援、公共安全以及新闻媒体等诸多领域。在产品设计方面,周谷越博士曾负责多款智能机器人产品的设计、研发、制造与经营,累计销量近500万台。其中,掌上智能无人机“晓”凭借颠覆性的人机交互设计在《时代周刊》的2017年全球十大科技产品中排名第4,力压亚马逊智能音箱和苹果智能手表等明星产品。同时,“晓”也是入选同年《时代周刊》全球25大最佳发明的唯一中国产品。在智能制造方面,周谷越博士曾带领团队完成了大疆产品制造品质体系的数字化和智能化升级,研发了支持多款产品的柔性加工设备、柔性传感器标定设备和柔性视觉检测(AOI)设备,搭建了全自动化的飞行参数测试与自整定系统和配套的多机协同飞行调度系统,实现了智能产品和智能设备协同感知决策的制造新模式。
周谷越教授首先介绍了智能机器人的定义,即具有感知、决策及环境交互能力的自主机器人。目前,世界范围内市值过万亿美元的六家公司中已经有五家针对机器人行业进行了相应部署。其中具有代表性的项目包括苹果公司推出的自动驾驶汽车、亚马逊推出的无人机快递配送,以及特斯拉待发布的人形机器人等。
虽然如此多的国际顶尖企业都在机器人赛道开展了相应布局,但我们在日常生活中很难见到这些智能化机器人的应用,主要原因之一便是智能机器人开发的复杂性。
一般的智能机器人系统开发流程与强化学习步骤类似,主要包括五个方面,分别为:构建软硬件实体、搭建实验环境、设定奖励机制、制定初始策略和迭代改进策略。随着上述流程的执行,开发者需要开展机器人结构搭建、寻找实验场地、采集实验数据、仿真计算、迭代优化和保障实验安全等一系列昂贵且繁琐的工作,智能机器人的整个开发过程充满艰辛与挑战。
纵使研发团队成功完成了机器人功能的开发,但任何一款产品的发布势必要经历市场的考验,因此如何将“实验室原型机”转化为“消费级机器人”又是智能机器人产业化的一大难点。
在消费机器人的制造方面,除去原有的实验样机制作要求,整体生产流程又增加了新产品导入阶段和量产阶段两部分的影响因素,新内容的加入代表了原型机与量产机的差异化性质,造成了产品评价函数复杂化、价格约束严苛化以及系统体量明显增大的问题。
综上所述,由于消费级机器人产品技术难度较大、研发成本高昂、量产品控流程繁琐等因素,导致当前消费级机器人的实际售价与消费者的低成本期望冲突较为严重,最终形成了消费级机器人落地难度较大的基本现状。
在机器人开发过程中,往往不会将软硬件直接集成在真实机器人上,而是先在仿真环境中进行技术验证。仿真具有收集数据迅速、成本低、可提供真值即准确标签、可轻松提供真实世界中的低概率场景、稳定可复现、安全不损伤人和机器人等优点。过去十年,深度学习催生了利用大数据产生智能的新模式,在计算机视觉、机器翻译等不同领域取得了诸多成果,数据驱动的相关技术也被应用于机器人行业中。然而在机器人领域,数据的获取成本很高,Sim2Real也因能在仿真中便捷产生大量数据训练深度学习算法而重获关注。
一般的Sim2Real方法是指在仿真环境中进行算法设计与调试,将仿真优化所得策略部署在真实物理平台,使其与真实环境进行交互。这种方法的弊端在于真实环境的反馈数据获取成本较大,且受到实际实验步骤的限制,无法进行大批量的重复性测试,导致实物实验效果普遍不佳。
对当前Sim2Real的发展现状总结来看,policy Sim2Real(传统Sim2Real)很难提升机器人的实际表现,close-loop Sim2Real(闭环Sim2Real)的研究热度正逐步提升,agent Sim2Real(智能体Sim2Real)仍处于发展的早期阶段。相较早期的Sim2Real,当下重新提出的Sim2Real思想主要新增了域随机优化和闭环Sim2Real两方面内容。
域随机优化扩大了仿真阶段的可行空间,能通过随机替换无关数据让agent标定的标签只与特定的特征相关。而具体操作中,通过随机置换一些特征在仿真中加入新的仿真数据,能够增强仿真训练数据的丰富程度,并提高仿真所得策略在正式环境中工作的有效性。
为了提高机器在真实环境中的表现,学界提出一种理想的闭环Sim2Real结构,该结构提供了两组控制策略。其中,与仿真相关的控制策略调节采用了真实交互数据作为信息来源,而与机器实体相关的控制策略则依据仿真结论进行优化,从而实现了一种理想的闭环结构。闭环Sim2Real的实操关键正是两组控制策略的联合优化问题。
以机械臂开抽屉的案例为例,闭环Sim2Real采用一定的真实数据采集方法获取实际机器人操作,并将所得反馈数据加入下图“D”所示步骤中,成功解决了系统辨识的相关问题。最后,该操作将相关计算参数送入访问器当中,实现了一个完整的闭环过程。
在AIR近期举办的以close-loop Sim2Real为核心的系列挑战赛中,为降低close-loop Sim2Real对环境信息的交互需求,该赛事采用参赛者基于仿真环境调试算法和官方实测提供反馈数据的形式,完成了整体闭环。
在控制方面,AIR尝试将Domain Randomization(域随机化)、Model-based RL(基于模型的强化学习)和Adaptive Control(自适应控制)的内容相结合,采用Online+Offline RL(在线+离线强化学习)构建一种真实数据和仿真数据综合作用的控制方法,目前已完成了一些尝试。团队一致认为该研究方向具有较高的研究潜力,未来期望该方向能取得一些理论突破,从而更好地完成集群控制等方面的具体任务。
文稿撰写 / 李育峰
排版编辑 / 蒲睿熙
校对责编 / 黄 妍