新闻中心

当前位置: 首页 > 新闻中心 > 学院新闻 > 正文

国内最多!AIR十篇研究成果被ICRA 2023收录

来源:       发布时间:2023-06-11

   

   
清华大学智能产业研究院(AIR) DISCOVER实验室共计10篇研究成果被被ICRA 2023会议接收,其中包含9篇论文与1篇海报。据大会数据显示, 本次 DISCOVER实验室是国内中稿论文最多的课题组、实验室主任周谷越副教授是全球中稿论文最多的华人学者、博士生李鹏飞是全球中稿论文最多的学生作者ICRA是全球机器人和自动化领域的顶级学术会议,也是IEEE机器人与自动化学会(RAS)的旗舰会议,自1984年开始每年举办一次。ICRA的Google Scholar h5-index为116,在机器人领域的全部学术会议与期刊中位列第一。以下是对相关论文内容的简要解读。

   

   






Planning Assembly Sequence with Graph Transformer


作者 马琳,龚江涛,徐豪,陈昊,赵昊,黄文炳,周谷越
单位: 清华大学智能产业研究院(AIR),千帜科技
摘要: 装配顺序规划(ASP)是现代制造业的重要过程,也是一个典型的NP完备问题,相关从业者一直致力于寻找其有效和高效的解决方案。在本文中,课题组提出了一个基于Graph Transformer装配序列规划的框架,该框架在一个自行收集的ASP数据库上进行了训练和演示。ASP数据库包含了一组LEGO模型。通过对原始结构的深入分析和特征提取,将LEGO模型抽象为异构图的结构。本文通过暴力搜索生成恰当的顺序,然后进行手动调整,使其符合人的拼装习惯。基于此自行收集的ASP数据集,课题组提出了一个异构图Transformer框架来学习装配规划的潜在规则。课题组进行了一系列实验来对所提出的框架进行了评估。结果表明,预测序列与真实序列的相似性Kendall's T 可以达到0.44,即中等相关性。同时,课题组还比较了节点特征和边的特征的不同效果。本文生成的装配序列,可作为进一步研究的基准。


数据集和代码已公开在: https://github.com/AIR-DISCOVER/ICRA_ASP


undefined



Annotating Covert Hazardous Driving Scenarios Online: Utilizing Drivers' Electroencephalography (EEG) Signals


作者 郑琛,訾慕肖,江文杰,初梦迪,张研,袁基睿,周谷越,龚江涛
单位: 清华大学智能产业研究院(AIR)


随着自动驾驶的普及,自动驾驶系统从细粒度驾驶场景数据库中进行学习变得越发重要。目前大多数可用的数据库都由人类标注,因此这些数据库的获得十分昂贵且耗时,更重要的是人类标注不可避免地受到人类认知和行为偏差的影响。本文提出了一种基于驾驶员脑电(EEG)信号的驾驶风险标注技术,并给出支持这一标注技术的初步证据。课题组邀请了10位有十年以上驾驶经验的驾校教练员观看真实和模拟驾驶场景视频,其中包含显性驾驶风险(如车辆或行人突然出现或从遮挡物后冲出)和隐性驾驶风险(如遮挡物)。受试者的任务是在探查到视频中的驾驶风险时迅速按键报告。课题组在受试者观看驾驶场景视频的同时记录了它们的脑电信号。结果发现,受试者几乎只在显性风险出现时按键报告,但它们的脑电信号在显性风险和隐性风险出现时都会增强。因此,受试者的口头标注仅对显性驾驶风险敏感,因而其在标注过程中会忽视内隐风险的存在,而其脑电信号对显性和隐性风险均敏感,利用受试者的脑电信号对驾驶风险进行标注比其口头报告具有更高的准确性。为了探索这一技术的可行性,课题组用Time-Series AI根据受试者的脑电信号对其看到的驾驶风险进行了分类。本文还讨论了实现这一标注技术所需的后续工作。


1F362



ADAPT: Action-aware Driving Caption Transformer


作者 晋步,刘昕煜,郑宇鹏,李鹏飞,赵昊,张通,郑宇航,周谷越,刘菁菁
单位: 清华大学智能产业研究院(AIR),中科院自动化所,清华大学计算机系,西安电子科技大学,南方科技大学,北京航空航天大学
摘要: 在过去十年中,自动驾驶技术取得了重大进展,但很多方法将自动驾驶视为监督学习问题,从人类驾驶行为中学习驾驶策略,如使用深度神经网络,输入车辆前视图像和车辆状态,预测车辆的未来运动。尽管这些方法具有潜力,但其无法展示系统决策的基本原理,这使得系统决策过程变得不透明且缺乏可解释性。此前,有人尝试使用视觉注意图(Attention Map)或者成本量图(Cost Volume)来解释自动驾驶模型,但由于用户对于智能系统算法的不熟悉,这些方法很难被乘客理解。而文本解释可以解决这个问题,自然语言的优势在于其本质上易于理解,即使用户不熟悉自动驾驶算法,也能理解车辆执行决策的原因,例如,“[描述]:the car pulls over to the right side of the road,[解释]:because the car is parking”。为此,课题组提出了第一个基于端到端Transformer的架构:ADAPT(Action-aware Driving cAPtion Transformer),它可以为乘客提供自然语言形式的车辆决策描述和原因解释。课题组采用多任务学习的方法来联合训练车辆决策任务和文本描述任务,以减少任务之间的差异。课题组在大规模数据集BDD-X上验证了ADAPT的有效性,并在实车测试中取得了优秀的结果。


代码和模型见:https://github.com/jxbbb/ADAPT


222D1



STEPS: Joint Self-supervised Nighttime Image Enhancement and Depth Estimation


作者 郑宇鹏,钟程亮,李鹏飞,高焕昂,郑宇航,晋步,汪羚,赵昊,周谷越,张启超,赵冬斌
单位: 清华大学智能产业研究院(AIR),中国科学院大学人工智能学院,中国科学院自动化所,清华大学计算机系
摘要: 最近自监督深度估计引起了很多关注,因为它可以提高自动驾驶车辆的三维感知能力。然而,它本质上依赖于光度一致性假设,但这一假设在夜间很难保持。虽然已经提出了各种监督夜间图像增强方法,但它们在具有挑战性的驾驶场景中的泛化性能并不令人满意。因此,课题组提出了一种联合学习夜间图像增强和深度估计的方法,它不使用任何任务的真实标签。课题组的方法使用一种新提出的不确定像素掩蔽策略将两个自监督任务紧密联系在一起。这种策略源于我们对夜间图像特点的观察,即夜间图像不仅受到曝光不足区域的影响,还受到曝光过度区域的影响。通过照明图分布生成的桥形曲线,可以自然地避免这两种区域对深度估计的影响。课题组在两个已建立的数据集nuScenes和RobotCar上对该方法进行了基准测试,并展示了两个数据集上的最新性能。最后,为了缓解现有数据集稀疏真实标签的问题,课题组提供了一组基于CARLA的新的照片级夜间数据集。它为该领域带来了有意义的新挑战。


代码和数据请访问: https://github.com/ucaszyp/STEPS


1C24B



LATITUDE: Robotic Global Localization with Truncated Dynamic Low-pass Filter in City-scale NeRF


作者 朱贞欣,陈远韬,武子睿,侯超,石永亮,李楚璇,李鹏飞,赵昊,周谷越
单位: 清华大学智能产业研究院(AIR),北京航空航天大学,西安建筑科技大学,北京理工大学,香港大学
摘要: 神经辐射场(NeRF)在复杂三维场景表达方面取得了巨大的进展,并且具有高分辨率和低内存占用的优点。然而,目前基于NeRF的位姿估计方法没有对全局初始值进行估计,因此在位姿优化过程中容易陷入局部最优。在本文中,课题组提出了LATITUDE,它通过一个两阶段的定位方法实现了大规模场景下基于NeRF的全局准确定位。在位置识别阶段,课题组训练了一个位姿回归网络,并通过NeRF生成图像实现数据增强,该网络可以提供全局定位初值。在位姿优化阶段,通过最小化观测图片和渲染图片之间的光度误差来对位姿进行优化。为了避免陷入局部最优,课题组引入了截断动态低通滤波(TDLF)来实现由粗到精的位姿回归。课题组在仿真和真实数据集上评估了我们的算法,取得了高精度的结果,并展示了在大规模城市场景下应用的潜力。
代码和数据集将公开在: https://github.com/jike5/LATITUDE
171BD



From Semi-supervised to Omni-supervised Room Layout Estimation Using Point Clouds


作者 高焕昂,田倍闻,李鹏飞,陈小雪,赵昊,周谷越,陈玉荣,查红彬
单位: 清华大学智能产业研究院(AIR),清华大学计算机科学与技术系,北京大学,英特尔中国研究院


摘要:房间布局估计是一项长久以来的机器视觉任务,这项任务对环境感知和运动规划都有益处。然而,使用点云(PC)进行布局估计仍受到数据稀缺的困扰,因为标注难度大。因此,课题组基于模型指数移动平均的概念来处理这个任务的半监督设置。但是,将这个方案适应于点云布局估计的最先进(SOTA)解决方案并非直接了当。为此,课题组定义了一种四边形集合匹配策略,并基于为布局四边形量身定制的度量来设计几种一致性损失。此外,课题组提出了一种新的在线伪标签收集算法,该算法将四边形和点云之间的混合距离度量的分布分解成两个组成部分。这种技术不需要手动选择阈值,直观地鼓励四边形与可靠的布局点对齐。令人惊讶的是,这个框架也适用于全监督设置,在ScanNet基准上实现了新的最先进水平。最后但并非最不重要的,课题组还将半监督设置推进到更为现实的全向监督设置,在新标注的ARKitScenes测试集上表现出显著提升的性能。


245E1



LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR


作者 李鹏飞,赵若雯,石永亮,赵昊,袁基睿,周谷越,张亚勤
单位: 清华大学智能产业研究院(AIR),清华大学计算机科学与技术系,中国科学院大学
摘要: 场景补全是指从对复杂3D场景的不完整感知中获得密集的场景表示。这有助于机器人在自动驾驶等场景中检测多尺度障碍物并分析物体的遮挡。最近的进展表明,可以利用隐式表示学习进行连续的场景补全,并通过像Eikonal方程这样的物理约束来实现。然而,以前的Eikonal补全方法只在少量密集点云数据上展示了结果,难以成功地应用于数以千计的稀疏LiDAR点云的大型开放场景。在本文中,课题组提出了一种新颖的Eikonal补全范式,将隐式表示条件化为局部化的形状先验作为密集边界值约束,并证明它在公开数据集SemanticKITTI和SemanticPOSS上有效。它还可以通过对网络架构进行小修改来扩展到语义场景完成。通过广泛的定量和定性结果,课题组展示了现有Eikonal方法的优点和缺点,这自然地引出了新的局部条件化公式。课题组将SemanticKITTI上点云补全的IoU从31.7%提高到51.2%,将SemanticPOSS上的IoU从40.5%提高到48.7%。课题组广泛地验证了其方法,并证明了所提出的公式对于各种实现超参数的鲁棒性。


代码和数据公开在:https://github. com/AIR-DISCOVER/LODE


1374F



Enable Natural Tactile Interaction for Robot Dog based on Large-format Distributed Flexible Pressure Sensors


作者 李双,曹焰铖,陈启泰,郭昊乐,高家思,罗亦悦,郭诗辉,周谷越,龚江涛
单位: 清华大学智能产业研究院(AIR),麻省理工学院,厦门大学


摘要:触摸是人与机器人交互的一个重要渠道,但机器人准确识别人类的触摸并做出适当的反应在目前是一个挑战。在本文中,课题组在机器狗身上设计并实现了一套大尺寸的分布式柔性压力传感器,以实现人与机器人的自然触觉互动。通过启发式研究,课题组整理出81种人类与真狗互动时常用的触觉手势和44种狗的反应。提出了一种基于ResNet的手势分类算法来识别这81种人类手势,分类精度达到98.7%。此外,课题组还提出了一种基于Transformer的动作预测算法,从人类的手势中预测狗的动作,1-gram BLEU得分达到0.87。最后,课题组在一个自由的人-机器狗互动游戏研究中比较了触觉交互和语音交互。结果显示,触觉交互在缓解用户焦虑、刺激用户兴奋和提高机器狗的可接受性方面发挥了更大的作用。


3E139



Unsupervised Road Anomaly Detection with Language Anchors


作者 田倍闻,刘明道,高焕昂,李鹏飞,赵昊,周谷越
单位: 清华大学智能产业研究院(AIR),清华大学计算机科学与技术系
摘要: 道路异常检测算法是自动驾驶安全性的重要保障,因为当前的道路场景理解模型通常以闭集方式进行训练,无法识别未知物体。由于带异常物体标注的大规模数据集难以采集标注,本文研究无监督条件下的异常检测方法,即仅使用预训练的场景解析模型来找出异常区域。与以往方法不同,我们不依赖从封闭训练集中学到的权重作为逻辑生成锚点,而是使用从大量配对的视觉和语言数据中学到的语言锚点。由于这些语言锚点中包含了丰富的开放语义信息,我们的方法在无需使用任何异常数据的同时,获得了无监督方法中的最佳表现。我们深入研究了这一新范式,并发现了使用多项二分分类的优越性,其来源于对否定语言锚点的更好理解。此外,我们发现在许多情况下,以往用于不确定性分析的语义标签top-1选择存在问题,而新的混合标准化策略对我们的解决方案带来了明显的性能提升。在FS LostAndFound、LostAndFound和RoadAnomaly数据集上和无额外训练数据、无重新训练的条件下,本方法取得了最优越的性能。


代码公开在:https://github.com/TB5z035/URAD-LA


600AF

Poster




Designing the Whole-Body Controller for a Wheel-Legged Mobile Manipulator


作者 贾宇飞,赵海州,张鑫亮,黄鹏飞,李楚璇,周谷越
单位: 清华大学智能产业研究院(AIR),清华大学,西交利物浦大学


摘要:ARX7机器人将轮足移动平台的多功能性与机械臂的灵活性相结合,通过在全身控制框架的机器人动力学中引入对机械臂的计算,实现了在维持移动底盘姿态稳定的情况下对机械臂运动的控制,并验证了在不同地形的中适应能力和鲁棒性。算法在仿真平台和实际机器人系统中得到了验证,软件框架同时支持在多种仿真环境和实际系统中运行,为Sim2Real2Sim模式创造了条件,即在仿真中验证算法、到实际系统中部署算法并发现问题、回到仿真中复现并解决问题、再到实际系统中验证。


13527



上一条:祝贺!AIR荣获ICRA国际机器人比赛冠军 下一条:AIR X RoboMaster|ICRA 2023机器人Sim2Real挑战赛完美收官!

关闭

相关新闻

最新动态

业务合作:airoffice@air.tsinghua.edu.cn
招生招聘:airhr@air.tsinghua.edu.cn
联系电话:(010)82151160  

办公地点:北京市海淀区清华科技园启迪科技大厦C座12层

官方微信

京ICP备15006448号  |   版权所有©清华大学智能产业研究院