400 128 6709

行业新闻

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

发布时间:2023-06-20点击次数:

通过对齐三维形状、二维图片以及相应的语言描述,多模态预训练方法也带动了3D表征学习的发展。

不过现有的多模态预训练框架收集数据的方法缺乏可扩展性,极大限制了多模态学习的潜力,其中最主要的瓶颈在于语言模态的可扩展性和全面性。

最近,Salesforce AI联手斯坦福大学和得克萨斯大学奥斯汀分校,发布了ULIP(CVP R2025)和ULIP-2项目,这些项目正在引领3D理解的新篇章。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

论文链接:https://arxiv.org/pdf/2212.05171.pdf

论文链接:https://arxiv.org/pdf/2305.08275.pdf

代码链接:https://github.com/salesforce/ULIP

研究人员采用了独特的方法,使用3D点云、图像和文本进行模型的预训练,将它们对齐到一个统一的特征空间。这种方法在3D分类任务中取得了最先进的结果,并为跨领域任务(如图像到3D检索)开辟了新的可能性。

并且ULIP-2将这种多模态预训练变得可以不需要任何人工标注,从而可以大规模扩展。

ULIP-2在ModelNet40的下游零样本分类上取得了显著的性能提升,达到74.0%的最高准确率;在现实世界的ScanObjectNN基准上,仅用140万个参数就获得了91.5%的总体准确率,标志着在无需人类3D标注的可扩展多模态3D表示学习方面的突破。

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA


对齐(3D,图像,文本)这三种特征的预训练框架示意图

代码以及发布的大规模tri-modal的数据集(「ULIP - Obj*erse Triplets」和「ULIP - ShapeNet Triplets」)已经开源。

背景

3D理解是人工智能领域的重要组成部分,它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。

然而,由于3D数据的处理和解释复杂性,以及收集和注释3D数据的成本,3D理解一直面临着巨大的挑战。

ULIP

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

Tri-modal 预训练框架以及其下游任务

ULIP(已经被CVPR2025接收)采用了一种独特的方法,使用3D点云、图像和文本进行模型的预训练,将它们对齐到一个统一的表示空间。

这种方法在3D分类任务中取得了最先进的结果,并为跨领域任务(如图像到3D检索)开辟了新的可能性。

ULIP的成功关键在于使用预先对齐的图像和文本编码器,如CLIP,它在大量的图像-文本对上进行预训练。

这些编码器将三种模态的特征对齐到一个统一的表示空间,使模型能够更有效地理解和分类3D对象。

这种改进的3D表示学习不仅增强了模型对3D数据的理解,而且还使得跨模态应用如zero-shot 3D分类和图像到3D检索成为可能,因为3D编码器获得了多模态上下文。

ULIP的预训练损失函数如下:

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

在ULIP的默认设置中,α被设置为0, β和θ被设置为1,每两个模态之间的对比学习损失函数的定义如下,这里M1和M2指三个模态中的任意两个模态:

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

ULIP还做了由图像到3D的retrieval的实验,效果如下:

ChatGPT Writer ChatGPT Writer

免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。

ChatGPT Writer 106 查看详情 ChatGPT Writer

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

实验结果可以看出ULIP预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。

令人惊讶的是,相较于其他的检索到的三维模型,第一名检索到的三维模型与查询图像的外观最为接近。

例如,当我们使用来自不同飞机类型(战斗机和客机)的图片进行检索(第二行和第三行),检索到的最接近的3D点云仍然保留了查询图像的微妙差异。

ULIP-2

这里是一个3D物体生成多角度文字描述的示例。我们先将3D物体以一组视角渲染成2D图像,接着使用大型多模态模型为所生成的所有图像生成描述

ULIP-2在ULIP的基础上,利用大型多模态模型为3D物体生*方面对应的语言描述,从而收集可扩展的多模态预训练数据,无需任何人工标注,使预训练过程和训练后的模型更加高效并且增强其适应性。

ULIP-2的方法包括为每个3D物体生成多角度不同的语言描述,然后用这些描述来训练模型,使3D物体、2D图像、和语言描述在特征空间对齐一致。

这个框架使得无需手动注释就可以创建大量的三模态数据集,从而充分发挥多模态预训练的潜力。

ULIP-2还发布了生成的大规模三模态数据集:「ULIP - Obj*erse Triplets」和「ULIP - ShapeNet Triplets」。

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

两个tri-modal的datasets的一些统计数据

实验结果

ULIP系列在多模态下游任务和3D表达的微调实验中均取得了惊人的效果,尤其ULIP-2中的预训练是完全不需要借助任何人工的标注就可以实现的。

ULIP-2在ModelNet40的下游零样本分类任务中取得了显著的提升(74.0%的top-1准确率);在真实世界的ScanObjectNN基准测试中,它仅用1.4M参数就取得了91.5%的总体准确率,这标志着在无需人工3D标注的情况下,实现了可扩展的多模态3D表示学习的突破。

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

消融实验

两篇论文均做了详尽的消融实验。

在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的预训练框架有三个模态的参与,所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好,实验结果如下:

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

从实验结果中可以看到,在不同的3D backbone中,对齐三个模态一致的比只对齐两个模态好,这也应证了ULIP的预训练框架的合理性。

在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模态模型会对预训练的框架有什么影响,结果如下:

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

实验结果可以看出,ULIP-2框架预训练的效果可以随着使用的大型多模态模型的升级而提升,具有一定的成长性。

在ULIP-2中,作者还探索了在生成tri-modal的数据集是采用不同数量的视角会如何影响整体预训练的表现,实验结果如下:

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

实验结果显示,随着使用的视角数量的增加,预训练的模型的zero-shot classification的效果也会随之增加。

这也应证了ULIP-2中的观点,更全方位多样性的语言描述会对多模态预训练有正向的作用。

除此之外,ULIP-2还探究了取CLIP排序过的不同topk的语言描述会对多模态预训练有什么影响,实验结果如下:

无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA

实验结果表明:ULIP-2的框架对不同的topk有一定的鲁棒性,论文中采用了top 5作为默认设置。

结论

由Salesforce AI,斯坦福大学,得克萨斯大学奥斯汀分校联手发布的ULIP项目(CVPR2025)和ULIP-2正在改变3D理解领域。

ULIP将不同的模态对齐到一个统一的空间,增强了3D特征的学习并启用了跨模态应用。

ULIP-2进一步发展,为3D对象生成整体语言描述,创建并开源了大量的三模态数据集,并且这个过程无需人工标注。

这些项目在3D理解方面设定了新的基准,为机器真正理解我们三维世界的未来铺平了道路。

团队

Salesforce AI:

Le Xue (薛乐), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于宁), Shu Zhang(张澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio s*arese。

斯坦福大学:

Prof. Silvio S*arese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吴佳俊)。

UT Austin:

Prof. Roberto Martín-Martín。

以上就是无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA的详细内容,更多请关注其它相关文章!


# 有什么  # 营销推广软文案例怎么写  # 品牌营销推广收费标准  # 婚纱营销推广语句  # 网络营销推广第一章  # 移动网站建设规范  # 淘宝推广营销文案  # 临沂网站云推广  # 鸿星尔克网站推广  # 铁哥们网站建设  # 怎么做社交网站推广呢  # 3D  # 前十  # 会对  # 采用了  # 斯坦福大学  # 得克萨斯  # 奥斯汀  # 模态  # 开源  # 多模  # 机器 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 央广车联网亮相2025世界人工智能大会  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  小米9号员工李明宣布创业:打造首款安卓桌面机器人  联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络  Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务  陈根:AI工具为游戏软件实时3D内容助力  抖音在Android平台获得VR|直播|软件著作权  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  WHEE网页地址入口  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  “长沙造”无人机,领先的不止植保  微软宣布为 Azure AI 添加男性声线,增强文本转语音功能  纪录片 《寻找人工智能》全集1080P超清  小米发布CyberDog2 - 他们的第二代仿生四足机器人展示  中国联通发布图文AI大模型,可实现以文生图、视频剪辑  最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”  AI和ML推动联网设备的增长  实测 AI 建筑设计软件的自动生成效果图能力  如何利用AI工具写好本科论文:科技助你一臂之力  换流站无线物联网络为新型电力系统铺设“数字之路”  2025年深圳举办的SUSECON 创新峰会开始接受报名  大疆 Air 3 无人机售价和实物照片曝光  深度学习模型综述:用于3D MRI和CT扫描的应用  V社谈AI制作游戏被ban:为确保开发者有素材所有权  速途网络成立“人工智能专家委员会”5位中美博士加盟  五款 AI 网站构建器,任何人都能快速构建网站  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  AI室内设计软件流行,室内设计行业如何应对效率变革  字节、网易相继入局,AI之后大厂又找到下一个风口?  研究预测HPC支持的人工智能增长迅速  构建AI绘画网站的方法:使用API接口和调用步骤  30+大模型齐聚,大模型成世界人工智能大会“顶流”  360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话  笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI  微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司