中意知识网 中意知识网

当前位置: 首页 » 常用知识 »

人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源 | ICLR 2025

人大团队 投稿

量子位 | 公众号 QbitAI

机器人怎样感知世界?

相比于“看得见”,“摸得着”能够提供更直接且细腻的物理反馈,有助于准确判断物体特性,还在精确操控和复杂操作中发挥关键作用。

长期以来,通过各种触觉传感器赋予机器人类似人类的 触觉感知能力,始终是具身智能重要研究方向。其中,由于具有与人类皮肤相匹配的高分辨率, 视触觉传感器展现出了巨大的潜力。

那么是否存在一个适用于多种传感器、多种任务的通用视触觉表征学习范式?

来自中国人民大学高瓴人工智能学院GeWu-Lab实验室、北京邮电大学和武汉科技大学最近的合作研究提出从 动静结合的新视角建模统一的多传感器触觉表征空间,通过多层级的学习框架,有效融合静态触觉信息(如材质、形状)与动态触觉特征(如滑动、形变),从而获得适应包含真实世界操纵在内的丰富触觉场景的通用表征。

论文已被ICLR2025接收,并对数据集、模型和代码进行了全部开源。

本文第一作者冯若轩为中国人民大学二年级硕士生,主要研究方向为多模态具身智能,师从胡迪副教授。作者来自于中国人民大学GeWu-Lab,北京邮电大学以及武汉科技大学,其中方斌教授和胡迪副教授作为共同通讯

视触觉面临什么挑战?

即便具有那么多潜力,构建基于视触觉传感器的强大触觉感知系统仍面临诸多挑战。由于发展时间较短,视触觉传感器种类繁多且缺乏统一标准,不同的传感器在感知相同的触觉信息时存在一定差异。

这种异构性使得当前的视触觉数据采集和模型训练通常依赖于特定传感器,导致单一传感器模型的数据规模受限,难以涵盖丰富的触觉场景,从而制约了触觉感知系统的泛化能力和鲁棒性。

此外,人类的触觉感知是一个动态与静态信息交织的过程,能够从纹理、滑动和形变变化等多种信号精准地理解物体特性。这种对动态触觉细节的敏锐捕捉能力在精细机器操纵中同样至关重要,也是当前多传感器触觉感知模型所欠缺的。

本论文针对视触觉感知所面临的核心挑战,提出了一个 配对的多传感器多模态触觉数据集TacQuad,为利用数据驱动方法显式整合多种触觉传感器奠定基础。

更进一步地,本文提出 动静结合的多传感器统一触觉表征学习框架AnyTouch,为包含真实世界操纵的多种任务和多种视触觉传感器提供有效的触觉感知。

TacQuad:配对的多传感器多模态触觉数据集

想象一下,假如不同的照相机拍同一个物体,但由于镜头、光线、颜色处理方式等不同,最后的照片却各不相同——这会让AI很难直接理解它们其实是同一个物体。

类似地,不同的视触觉传感器使用的技术原理也略有不同,相当于“看世界的方式”各不相同,导致它们采集的数据很难直接迁移使用。究其根本,在于缺乏一个显式地配对多传感器数据,并允许模型从其他模态获取更全面的触觉知识、借助多模态数据弥合传感器差异的可靠触觉数据集。

图1 配对的多传感器多模态触觉数据集TacQuad

为了让AI更聪明地“摸清世界”,本工作采集了配对的多传感器多模态触觉数据集TacQuad,通过提供包含文本描述和视觉图像的配对多传感器数据,支持以数据驱动的方式构建统一的多传感器触觉表征空间,从而为这一问题提供一个更全面的解决方案 (如图1所示)

为了确保数据的丰富性,团队精心挑选了 四种触觉传感器:来自公开平台的GelSight Mini和DIGIT,实验室自制的DuraGel,以及能够感知力场的Tac3D。

然而,考虑到收集细粒度多传感器配对数据成本高昂,为扩大数据采集的规模,同时尽可能地保证数据的对齐质量,团队使用粗粒度和细粒度两种方法采集了两组多传感器配对数据:

  • 细粒度时空对齐数据:该部分数据通过将四个传感器以相同的速度按压同一物体的相同位置采集,共包含来自25个物体的17524个接触帧,可用于细粒度触觉任务,如跨传感器生成。

  • 粗粒度空间对齐数据:该部分数据由人分别手持四个传感器,在同一物体上按压同一位置,尽管不能保证时间对齐,但可以尽可能地保证采集空间上的一致。该部分包含来自99个物体的55082个接触帧,包括室内和室外场景,可用于跨传感器匹配任务。

在TacQuad数据集中,每次触觉接触都会同时记录来自第三视角的视觉图像,并由GPT-4o生成对应的触觉属性描述。

这样,AI不仅能“摸”到物体,还能“看到”并“理解”它的触感。

为进一步利用更多传感器的大量已有数据,本工作还利用GPT-4o对多个开源触觉数据集生成或扩展文本描述,让这些原本只包含传感器数据的数据集也拥有丰富的语言信息

AnyTouch:动静结合的多传感器统一触觉表征学习框架

在日常生活中,团队的触觉不仅仅是“摸一摸”那么简单,而是一个包含静态和动态过程的综合体验。比如,轻轻按压一块海绵可以感受到它的柔软 (静态触觉),而用手指滑动还能感知它的纹理和弹性 (动态触觉)

这两种感知方式相辅相成,让团队能够更准确地理解周围的物理世界并与之交互。受此启发,本工作提出了AnyTouch——一个动静结合的多传感器统一触觉表征学习框架,分别使用触觉图像和视频,从静态和动态感知结合的角度学习统一的多传感器触觉表征 (如图2所示)

图2 动静结合的多传感器统一触觉表征学习框架AnyTouch

为了适应不同的触觉场景的感知需求,AnyTouch采用了多层级架构,分阶段提升模型的触觉感知能力。

在第一阶段中关注像素级的触觉细节,而第二阶段则学习传感器无关的语义级特征,使AI能更全面地理解和处理触觉信息:

  • 掩码图像/视频建模(阶段1):为增强触觉感知模型的细粒度感知能力,本框架采用掩码自编码器(MAE)技术,训练模型在多种传感器的数据输入中捕捉像素级细节。该框架随机遮挡触觉图像和视频的Token序列的一部分,并构建一个解码器来获得重建的静态图像和动态视频。为进一步强化模型对动态连续形变的理解,在重建动态视频时还引入未来帧预测的额外任务。

  • 多模态对齐(阶段2):本框架通过触觉-视觉-文本多模态对齐,对包含其他配对模态的多传感器触觉数据进行整合,以获得更全面的语义级触觉知识,并借其他模态作为桥梁减少传感器之间的感知差异。由于不同数据集视觉模态存在场景差异,本框架选择语义更一致的文本模态作为锚点,并为每个批次数据内的每种模态组合选择最大的数据子集进行对齐,从而最大限度地利用多模态配对数据。

  • 跨传感器匹配(阶段2):为充分地利用多传感器配对数据,并通过对表示相同触觉信息的多传感器触觉表征进行聚类来构建统一的空间,本框架引入了一个新的跨传感器匹配任务。在此任务中,模型需要确定输入的一对触觉图像或视频是否采集自同一对象上的同一位置。该任务的目标是在执行多模态对齐的同时,对来自不同传感器的相同触觉信息的表示进行聚类,从而增强对传感器无关特征的学习,形成一个统一的多传感器表征空间。

本框架还使用通用传感器Token来整合并存储与各传感器相关的信息,从而在泛化到新传感器时最大限度地利用多传感器训练数据。

实验与分析

为探究每种传感器数据对下游任务的贡献,本工作将GelSight、GelSlim、DIGIT和GelSight Mini的数据整合到AnyTouch训练中,获得四种模型,并在四个下游任务中比较。

如表1所示,与未接触触觉数据的CLIP模型相比,使用GelSight数据的训练显著提升了模型在所有任务上的性能,表明触觉表征预训练对新传感器的迁移至关重要。将其他传感器的数据整合后,模型在三个未见数据集上的性能提升,特别是在未见传感器的数据集上表现更好,证明这些数据的知识能够迁移到其他触觉传感器。

表1 整合各触觉传感器数据对模型性能的影响

为验证AnyTouch是否能将来自不同传感器的相同触觉信息聚集在一起,本工作从TacQuad细粒度子集的30次触摸中抽取每种传感器的一个接触帧,并输入CLIP模型以及逐步引入掩码建模、多模态对齐和跨传感器匹配的AnyTouch模型进行对比可视化 (见图3)

CLIP以及引入掩码建模后的模型难以辨别来自不同传感器的相同触觉信息,直接按传感器类型对样本进行聚类,这对于跨传感器泛化来说并不理想。加入多模态对齐后,表征开始基于触觉信息混合和聚类,但仍存在按传感器类型的聚类趋势。通过跨传感器匹配任务,来自不同传感器的触觉表征在共享空间中完全混合,能够明显地观察到表征根据触觉信息进行聚类,触觉表征逐渐从传感器依赖的特征转向更加通用的跨传感器信息。

图3 AnyTouch中各组件对多传感器表征空间的影响

为验证统一多传感器表征在迁移触觉知识到已见与未见传感器上的优势,本工作将 AnyTouch与现有的单传感器和多传感器模型,分别在已见与未见传感器的两个数据集上进行比较。

如表2、表3所示,AnyTouch在所有数据集上均优于现有方法,证明了其在静态感知能力上的优势。

表2(左)已见传感器数据集性能对比 表3(右)未见传感器数据集性能对比

为测试AnyTouch在真实物体操纵任务中的动态感知能力,本工作在 细粒度倾倒任务上进行了实验。在此任务中,机械臂需依靠触觉反馈从含100克小钢珠的量筒中倒出60克,如图4所示。各模型在10次真实世界测试中的平均误差对比如表4所示。结果表明,从动静结合角度学习统一的多传感器表示对于完成包括现实世界任务在内的各种任务至关重要。

图4(左)真实世界倾倒任务示意图 表4(右)倾倒任务性能对比

本文从全新的动静结合角度构建统一的多传感器触觉表征空间,提出配对的多传感器多模态触觉数据集TacQuad以提供显式整合多传感器的数据支撑,并在此基础上提出动静结合的多传感器统一触觉表征学习框架,通过多层级的方式学习适用于各种任务的通用触觉表征。

团队表示,相信从静态与动态结合的角度学习统一的多传感器表征的方法能够为视触觉感知建立一个标准化的学习范式,并进一步激发多传感器表征学习的研究。

未经允许不得转载: 中意知识网 » 人大北邮等团队解视触觉感知统一难题,模型代码数据集全开源 | ICLR 2025