CVPR 2025 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步


在许多实际应用中,物体姿态估计扮演着关键角色,比如在具身智能、机器人操作和增强现实等领域。

在这一领域中,最先受到关注的任务是实例级别 6D 姿态估计,其需要关于目标物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿态估计,用于处理未见过的物体,但要求该物体属于已知的感兴趣类别。

零样本 6D 姿态估计是一种更具泛化性的任务设置,给定任意物体的 CAD 模型,旨在场景中检测出该目标物体,并估计其 6D 姿态。尽管其具有重要意义,这种零样本的任务设置在物体检测和姿态估计方面都面临着巨大的挑战。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

                               图 1. 零样本 6D 物体姿态估计任务示意

最近,分割一切模型 SAM [1] 备受关注,其出色的零样本分割能力令人瞩目。SAM 通过各种提示,如像素点、包围框、文本和掩膜等,实现高精度的分割,这也为零样本 6D 物体姿态估计任务提供了可靠的支撑, 展现了其前景的潜力。

因此,一项新的零样本 6D 物体姿态估计框架 SAM-6D 被跨维智能、香港中文大学(深圳)、华南理工大学的研究人员提出。这一研究成果已经受到 CVPR 2025 的认可。

  • 论文链接: https://arxiv.org/pdf/2311.15707.pdf

  • 代码链接: https://github.com/JiehongLin/SAM-6D

SAM-6D 通过两个步骤来实现零样本 6D 物体姿态估计,包括实例分割和姿态估计。相应地,给定任意目标物体,SAM-6D 利用两个专用子网络,即实例分割模型(ISM)和姿态估计模型(PEM),来从 RGB-D 场景图像中实现目标;其中,ISM 将 SAM 作为一个优秀的起点,结合精心设计的物体匹配分数来实现对任意物体的实例分割,PEM 通过局部到局部的两阶段点集匹配过程来解决物体姿态问题。SAM-6D 的总览如图 2 所示。

                                 图 2. SAM-6D 总览图

总体来说,SAM-6D 的技术贡献可概括如下:

  • SAM-6D 是一个创新的零样本 6D 姿态估计框架,通过给定任意物体的 CAD 模型,实现了从 RGB-D 图像中对目标物体进行实例分割和姿态估计,并在 BOP [2] 的七个核心数据集上表现优异。

  • SAM-6D 利用分割一切模型的零样本分割能力,生成了所有可能的候选对象,并设计了一个新颖的物体匹配分数,以识别与目标物体对应的候选对象。

  • SAM-6D 将姿态估计视为一个局部到局部的点集匹配问题,采用了一个简单但有效的 Background Token 设计,并提出了一个针对任意物体的两阶段点集匹配模型;第一阶段实现粗糙的点集匹配以获得初始物体姿态,第二阶段使用一个新颖的稀疏到稠密点集变换器以进行精细点集匹配,从而对姿态进一步优化。

实例分割模型 (ISM)

SAM-6D 使用实例分割模型(ISM)来检测和分割出任意物体的掩膜。

给定一个由 RGB 图像表征的杂乱场景,ISM 利用分割一切模型(SAM)的零样本迁移能力生成所有可能的候选对象。对于每个候选对象,ISM 为其计算一个物体匹配分数,以估计其与目标物体之间在语义、外观和几何方面的匹配程度。最后通过简单设置一个匹配阈值,即可识别出与目标物体所匹配的实例。

物体匹配分数的计算通过三个匹配项的加权求和得到:

语义匹配项 —— 针对目标物体,ISM 渲染了多个视角下的物体模板,并利用 DINOv2 [3] 预训练的 ViT 模型提取候选对象和物体模板的语义特征,计算它们之间的相关性分数。对前 K 个最高的分数进行平均即可得到语义匹配项分数,而最高相关性分数对应的物体模板视为最匹配模板。

外观匹配项 —— 对于最匹配模板,利用 ViT 模型提取图像块特征,并计算其与候选对象的块特征之间的相关性,从而获得外观匹配项分数,用于区分语义相似但外观不同的物体。

几何匹配项 —— 鉴于不同物体的形状和大小差异等因素,ISM 还设计了几何匹配项分数。最匹配模板对应的旋转与候选对象点云的平均值可以给出粗略的物体姿态,利用该姿态对物体 CAD 模型进行刚性变换并投影可以得到边界框。计算该边界框与候选边界框的交并比(IoU)则可得几何匹配项分数。

姿态估计模型 (PEM)

对于每个与目标物体匹配的候选对象,SAM-6D 利用姿态估计模型(PEM)来预测其相对于物体 CAD 模型的 6D 姿态。 

将分割的候选对象和物体 CAD 模型的采样点集分别表示为 和,其中 N_m 和 N_o 表示它们点的数量;同时,将这两个点集的特征表示为和,C 表示特征的通道数。PEM 的目标是得到一个分配矩阵,用于表示从 P_m 到 P_o 之间的局部到局部对应关系;由于遮挡的原因,P_o 只部分与匹配 P_m,而由于分割不准确性和传感器噪声,P_m 也只部分与匹配 P_o。

为了解决两个点集非重叠点的分配问题,ISM 为它们分别配备了 Background Token,记为 和 ,则可以基于特征相似性有效地建立局部到局部对应关系。具体来说,首先可以计算注意力矩阵如下:

接着可得分配矩阵

和 分别表示沿着行和列的 softmax 操作, 表示一个常数。 中的每一行的值(除了首行),表示点集 P_m 中每个点 P_m 与背景及 P_o 中点的匹配概率,通过定位最大分数的索引,则可以找到与 P_m 匹配的点(包括背景)。

一旦计算获得  ,则可以聚集所有匹配点对 {(P_m,P_o)} 以及它们的匹配分数,最终利用加权 SVD 计算物体姿态。

                                 图 3. SAM-6D 中姿态估计模型 (PEM) 的示意图

利用上述基于 Background Token 的策略,PEM 中设计了两个点集匹配阶段,其模型结构如图 3 所示,包含了特征提取、粗略点集匹配和精细点集匹配三个模块。

粗糙点集匹配模块实现稀疏对应关系,以计算初始物体姿态,随后利用该姿态来对候选对象的点集进行变换,从而实现位置编码的学习。

精细点集匹配模块结合候选对象和目标物体的采样点集的位置编码,从而注入第一阶段的粗糙对应关系,并进一步建立密集对应关系以得到更精确的物体姿态。为了在这一阶段有效地学习密集交互,PEM 引入了一个新颖的稀疏到稠密点集变换器,它实现在密集特征的稀疏版本上的交互,并利用 Linear Transformer [5] 将增强后的稀疏特征扩散回密集特征。

实验结果

对于 SAM-6D 的两个子模型,实例分割模型(ISM)是基于 SAM 构建而成的,无需进行网络的重新训练和 finetune,而姿态估计模型(PEM)则利用 MegaPose [4] 提供的大规模 ShapeNet-Objects 和 Google-Scanned-Objects 合成数据集进行训练。

为验证其零样本能力,SAM-6D 在 BOP [2] 的七个核心数据集上进行了测试,包括了 LM-O,T-LESS,TUD-L,IC-BIN,ITODD,HB 和 YCB-V。表 1 和表 2 分别展示了不同方法在这七个数据集上的实例分割和姿态估计结果的比较。相较于其他方法,SAM-6D 在两个方法上的表现均十分优异,充分展现其强大的泛化能力。

                               表 1. 不同方法在 BOP 七个核心数据集上的实例分割结果比较

                                  表 2. 不同方法在 BOP 七个核心数据集上的姿态估计结果比较

图 4 展示了 SAM-6D 在 BOP 七个数据集上的检测分割以及 6D 姿态估计的可视化结果,其中 (a) 和 (b) 分别为测试的 RGB 图像和深度图,(c) 为给定的目标物体,而 (d) 和 (e) 则分别为检测分割和 6D 姿态的可视化结果。

                                    图 4. SAM-6D 在 BOP 的七个核心数据集上的可视化结果。

关于 SAM-6D 的更多实现细节, 欢迎阅读原论文.

参考文献:

[1] Alexander Kirillov et. al.,“Segment anything.”

[2] Martin Sundermeyer et. al.,“Bop challenge 2025 on detection, segmentation and pose estimation of specific rigid objects.”

[3] Maxime Oquab et. al.,“Dinov2: Learning robust visual features without supervision.”

[4] Yann Labbe et. al.,“Megapose: 6d pose estimation of novel objects via render & compare.”

[5] Angelos Katharopoulos et. al., “Transformers are rnns: Fast autoregressive

transformers with linear attention.”


# 则可  # 这一  # 是一个  # 华南理工大学  # 来实现  # 所示  # 如图  # 分别为  # 有效地  # less  # 变换器  # 传感器  # https  # transformer  # github  # background  # 对象  # Token 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 网络优化91478 】 【 技术知识72672 】 【 云计算0 】 【 GEO优化84317 】 【 优选文章0 】 【 营销推广36048 】 【 网络运营41350 】 【 案例网站102563 】 【 AI智能45237


相关推荐: Google AI Studio:免费AI视频生成器使用指南  智行ai抢票怎么选优先车次_智行ai抢票车次优先级设置技巧【指南】  AI朋友圈文案生成工具有哪些_一键生成营销文案的AI工具推荐  构建卓越的AI驱动测试自动化框架:QA工程师指南  面试成功秘诀:如何巧妙回答常见面试问题  播客剪辑软件选择指南:新手到专业,总有一款适合你  现代集团CES 2026首秀机器人Atlas 发布AI机器人战略  Tenorshare PDNob:免费AI图像翻译器,即时转换图像为文本  智行ai抢票怎么设置抢票截止时间_智行ai抢票截止时间设置与确认【步骤】  唐库AI拆书工具如何批量导出笔记_唐库AI拆书工具批量导出与格式转换【方法】  百度输入法总是弹出ai 百度输入法ai自动弹出关闭  Decart Lucy 14B:颠覆AI视频生成领域的革命性模型  美图AI海报设计怎样匹配品牌VI_美图AI海报设计VI匹配与色彩校准【教程】  生物医学图像分割:U-Net模型训练与应用详解  钉钉ai划词工具怎么使用划词查词_钉钉ai划词工具查词入口与释义查看【指南】  百度输入法ai写作怎么关 百度输入法ai帮写禁用  BEILA:用AI驱动的低代码开发平台详解  电脑百度ai助手怎么关闭 电脑版百度ai助手移除教程  AISIA O1皮肤检测仪操作指南:安装、使用、疑难解答  AI数据分析报告生成工具有哪些_一键生成可视化报告的AI工具推荐  利用MECLABS AI解决业务难题:实用指南  豆包Ai官方网页版入口地址_豆包Ai官网在线使用入口  Claude怎么用新功能诗歌创作_Claude诗歌创作使用【方法】  豆包AI帮你写代码注释 豆包AI编程辅助教程  教你用AI将长视频内容切片,并自动生成短视频文案  通义听悟转会议纪要怎么用_通义听悟转会议纪要使用方法详细指南【教程】  ChatGPT 在电商产品描述批量生成中的应用  唐库AI拆书工具如何提取核心观点_唐库AI拆书工具观点提取与标注方法【攻略】  兔展AI排版如何批量生成多尺寸图_兔展AI排版多尺寸批量生成步骤【实操】  DeepSeek如何编写Shell脚本 DeepSeek自动化运维指南  2025年QA工程师必备:五款AI自动化测试工具深度解析  使用AI配乐:ElevenLabs Music音乐生成器终极指南  Claude怎样写任务型提示词_Claude任务提示词写法【步骤】  讯飞星火怎么一键生成|直播|话术_讯飞星火话术生成与节奏把控【教程】  音乐天赋自测:你天生拥有绝对音感吗?15个问题揭晓  解读 Karan Aujla:如何用音乐连接全球与故土?  孩子作文写不出来?教你用AI引导孩子构思,写出优秀范文  如何用AI帮你把小说改编成电影剧本?3步掌握核心技巧  手相解析:生命线的形状与意义详解,预示健康、财富和命运  批改网AI检测工具怎样批量检测作文_批改网AI检测工具批量上传与处理流程【攻略】  DesignGen: 5个AI模型革新服装设计,快速实现创意  怎么用AI帮你为初创公司进行市场定位分析?  Motion:革新项目管理的智能日历解决方案  探索弦乐器世界:从吉他到卡曼切,乐器全解析  AI驱动法律文件分类:效率提升与战略决策的新纪元  AI怎么修复模糊视频 视频画质增强AI软件Topaz Video使用【教程】  Depseek怎么生成员工成长总结_Depseek成长维度提取与案例整合【方法】  文心一言辅助学习方法 解决难题与知识点梳理使用指南  AI 3D人像视频制作:零成本手机教程,引爆社交媒体  千问怎么使用插件功能_千问插件调用与功能扩展【教程】 

 2024-03-25

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

南京市珐之弘网络技术有限公司


南京市珐之弘网络技术有限公司

南京市珐之弘网络技术有限公司专注海外推广十年,是谷歌推广.Facebook广告全球合作伙伴,我们精英化的技术团队为企业提供谷歌海外推广+外贸网站建设+网站维护运营+Google SEO优化+社交营销为您提供一站式海外营销服务。

 87067657

 13565296790

 87067657@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.