发布时间:2023-06-20
点击次数: 通过对
齐三维形状、二维图片以及相应的语言描述,多模态预训练方法也带动了3D表征学习的发展。
不过现有的多模态预训练框架收集数据的方法缺乏可扩展性,极大限制了多模态学习的潜力,其中最主要的瓶颈在于语言模态的可扩展性和全面性。
最近,Salesforce AI联手斯坦福大学和得克萨斯大学奥斯汀分校,发布了ULIP(CVP R2025)和ULIP-2项目,这些项目正在引领3D理解的新篇章。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文链接:https://arxiv.org/pdf/2212.05171.pdf
论文链接:https://arxiv.org/pdf/2305.08275.pdf
代码链接:https://github.com/salesforce/ULIP
研究人员采用了独特的方法,使用3D点云、图像和文本进行模型的预训练,将它们对齐到一个统一的特征空间。这种方法在3D分类任务中取得了最先进的结果,并为跨领域任务(如图像到3D检索)开辟了新的可能性。
并且ULIP-2将这种多模态预训练变得可以不需要任何人工标注,从而可以大规模扩展。
ULIP-2在ModelNet40的下游零样本分类上取得了显著的性能提升,达到74.0%的最高准确率;在现实世界的ScanObjectNN基准上,仅用140万个参数就获得了91.5%的总体准确率,标志着在无需人类3D标注的可扩展多模态3D表示学习方面的突破。

对齐(3D,图像,文本)这三种特征的预训练框架示意图
代码以及发布的大规模tri-modal的数据集(「ULIP - Obj*erse Triplets」和「ULIP - ShapeNet Triplets」)已经开源。
3D理解是人工智能领域的重要组成部分,它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。
然而,由于3D数据的处理和解释复杂性,以及收集和注释3D数据的成本,3D理解一直面临着巨大的挑战。

Tri-modal 预训练框架以及其下游任务
ULIP(已经被CVPR2025接收)采用了一种独特的方法,使用3D点云、图像和文本进行模型的预训练,将它们对齐到一个统一的表示空间。
这种方法在3D分类任务中取得了最先进的结果,并为跨领域任务(如图像到3D检索)开辟了新的可能性。
ULIP的成功关键在于使用预先对齐的图像和文本编码器,如CLIP,它在大量的图像-文本对上进行预训练。
这些编码器将三种模态的特征对齐到一个统一的表示空间,使模型能够更有效地理解和分类3D对象。
这种改进的3D表示学习不仅增强了模型对3D数据的理解,而且还使得跨模态应用如zero-shot 3D分类和图像到3D检索成为可能,因为3D编码器获得了多模态上下文。
ULIP的预训练损失函数如下:

在ULIP的默认设置中,α被设置为0, β和θ被设置为1,每两个模态之间的对比学习损失函数的定义如下,这里M1和M2指三个模态中的任意两个模态:

ULIP还做了由图像到3D的retrieval的实验,效果如下:
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情

实验结果可以看出ULIP预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。
令人惊讶的是,相较于其他的检索到的三维模型,第一名检索到的三维模型与查询图像的外观最为接近。
例如,当我们使用来自不同飞机类型(战斗机和客机)的图片进行检索(第二行和第三行),检索到的最接近的3D点云仍然保留了查询图像的微妙差异。
这里是一个3D物体生成多角度文字描述的示例。我们先将3D物体以一组视角渲染成2D图像,接着使用大型多模态模型为所生成的所有图像生成描述
ULIP-2在ULIP的基础上,利用大型多模态模型为3D物体生*方面对应的语言描述,从而收集可扩展的多模态预训练数据,无需任何人工标注,使预训练过程和训练后的模型更加高效并且增强其适应性。
ULIP-2的方法包括为每个3D物体生成多角度不同的语言描述,然后用这些描述来训练模型,使3D物体、2D图像、和语言描述在特征空间对齐一致。
这个框架使得无需手动注释就可以创建大量的三模态数据集,从而充分发挥多模态预训练的潜力。
ULIP-2还发布了生成的大规模三模态数据集:「ULIP - Obj*erse Triplets」和「ULIP - ShapeNet Triplets」。

两个tri-modal的datasets的一些统计数据
ULIP系列在多模态下游任务和3D表达的微调实验中均取得了惊人的效果,尤其ULIP-2中的预训练是完全不需要借助任何人工的标注就可以实现的。
ULIP-2在ModelNet40的下游零样本分类任务中取得了显著的提升(74.0%的top-1准确率);在真实世界的ScanObjectNN基准测试中,它仅用1.4M参数就取得了91.5%的总体准确率,这标志着在无需人工3D标注的情况下,实现了可扩展的多模态3D表示学习的突破。

两篇论文均做了详尽的消融实验。
在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的预训练框架有三个模态的参与,所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好,实验结果如下:

从实验结果中可以看到,在不同的3D backbone中,对齐三个模态一致的比只对齐两个模态好,这也应证了ULIP的预训练框架的合理性。
在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模态模型会对预训练的框架有什么影响,结果如下:

实验结果可以看出,ULIP-2框架预训练的效果可以随着使用的大型多模态模型的升级而提升,具有一定的成长性。
在ULIP-2中,作者还探索了在生成tri-modal的数据集是采用不同数量的视角会如何影响整体预训练的表现,实验结果如下:

实验结果显示,随着使用的视角数量的增加,预训练的模型的zero-shot classification的效果也会随之增加。
这也应证了ULIP-2中的观点,更全方位多样性的语言描述会对多模态预训练有正向的作用。
除此之外,ULIP-2还探究了取CLIP排序过的不同topk的语言描述会对多模态预训练有什么影响,实验结果如下:

实验结果表明:ULIP-2的框架对不同的topk有一定的鲁棒性,论文中采用了top 5作为默认设置。
由Salesforce AI,斯坦福大学,得克萨斯大学奥斯汀分校联手发布的ULIP项目(CVPR2025)和ULIP-2正在改变3D理解领域。
ULIP将不同的模态对齐到一个统一的空间,增强了3D特征的学习并启用了跨模态应用。
ULIP-2进一步发展,为3D对象生成整体语言描述,创建并开源了大量的三模态数据集,并且这个过程无需人工标注。
这些项目在3D理解方面设定了新的基准,为机器真正理解我们三维世界的未来铺平了道路。
Salesforce AI:
Le Xue (薛乐), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于宁), Shu Zhang(张澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio s*arese。
斯坦福大学:
Prof. Silvio S*arese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吴佳俊)。
UT Austin:
Prof. Roberto Martín-Martín。
以上就是无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA的详细内容,更多请关注其它相关文章!
# 有什么
# 营销推广软文案例怎么写
# 品牌营销推广收费标准
# 婚纱营销推广语句
# 网络营销推广第一章
# 移动网站建设规范
# 淘宝推广营销文案
# 临沂网站云推广
# 鸿星尔克网站推广
# 铁哥们网站建设
# 怎么做社交网站推广呢
# 3D
# 前十
# 会对
# 采用了
# 斯坦福大学
# 得克萨斯
# 奥斯汀
# 模态
# 开源
# 多模
# 机器
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
构建人机交互创新模式,微美全息研究AIGC智能交互界面生成技术
周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由
重塑未来生活的五项技术趋势
美图秀秀发布7款AI产品:支持用户创作、商业创作
央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点
九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布
人工智能行业急缺人 AI人才年薪能达近42万元
视觉中国推出AI灵感绘图功能,付费后可在“合法合规前提下使用”
亚马逊确认今年不举办re:MARS人工智能大会
美图设计室2.0新增哪些功能
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身
企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的
电力人工智能数据集目录首次发布
马斯克嘲讽人工智能:机器学习本质就是统计学
30+大模型齐聚,大模型成世界人工智能大会“顶流”
不到2S创作AI图像!Snap发布图像生成器SnapFusion
消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款
WHEE网页地址入口
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
微软面向AI初学者推出免费网络课程
《爱康未来之夜嘉宾官宣,携手共赴AI未来》
掌阅科技申请阅爱聊商标 掌阅科技申请AI相关商标
李开复官宣新公司「零一万物」,进军 AI 2.0
网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手
OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导
OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试
AI生成新闻网站数量激增,正在疯狂赚取广告收入
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
贫穷让我预训练
LinkedIn 推出生成式 AI 辅助撰写帖文功能,将向所有用户开放
猿力科技入选北京市通用人工智能产业创新伙伴计划
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
人工智能自己玩自己
了解 AGI:智能的未来?
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待
微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」
借力AI!PCB全球巨头,有爆发潜质吗?
华为昇腾AI原生支持30多种基础大模型,包括GPT
花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?
扎克伯格吐槽苹果Vision Pro:社交落后Meta太多,无法建设元宇宙