发布时间:2025-08-27
点击次数: 8月25日,群核科技在首届技术开放日(techday)上正式发布其空间大模型最新成果:新一代空间语言模型spatiallm 1.5与空间生成模型spatialgen,并在现场分享了新模型后续的开源节奏。作为业界首个专注于3d室内场景认知与生成的大模型体系,群核空间大模型在真实感全息漫游、结构化可交互以及复杂室内场景处理方面展现出显著优势。
据悉,在开源模型之外,群核科技还首次分享了其AI团队基于SpatialGen探索的AI视频生成解决方案,旨在通过新范式解决时空一致性难题。
SpatialLM 1.5:一句话生成结构化3D场景,解决机器人训练数据难题
本次发布的SpatialLM 1.5是一款基于大语言模型训练的空间语言模型,支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。相比于传统大语言模型对物理世界几何与空间关系的理解局限,SpatialLM 1.5不仅能理解文本指令,还能输出包含空间结构、物体关系、物理参数的“空间语言”。例如,当用户输入简单文本描述时,SpatialLM 1.5可自动生成结构化场景脚本,智能匹配家具模型并完成布局,并支持后续通过自然语言进行问答或编辑。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图说:空间语言模型SpatialLM1.5能力示意图
更关键的是,SpatialLM 1.5生成的场景富含物理正确的结构化信息,且能快速批量输出大量符合要求的多样化场景,可用于机器人路径规划、避障训练、任务执行等场景,这将有效解决当前机器人训练“缺数据”的难题。现场,群核科技首席科学家周子寒演示了机器人养老场景的应用,当输入“去客厅餐桌拿药”这一指令后,该模型不仅理解了相关的物体对象,还调用工具自动规划出最优行动路径,展示了机器人在复杂家庭环境中执行任务的潜力。
值得一提的是,其前代版本 SpatialLM 1.0 今年3月开源后,迅速登上Hugging Face趋势榜前三,目前已有初创企业基于其代码和架构训练出自有模型,验证了开源模式的技术辐射力。
SpatialGen:破解AI视频“时空一致性”难题,打造可自由漫游的3D世界
如果说SpatialLM解决的是“理解与交互”问题,那么 SpatialGen 则专注于“生成与呈现”。作为一款基于扩散模型架构的多视角图像生成模型,SpatialGen 可根据文字描述、参考图像和3D空间布局,生成具有时空一致性的多视角图像,并支持进一步生成3D高斯(3DGS)场景并渲染漫游视频。
SpatialGen依托群核科技海量室内3D场景数据与多视角扩散模型技术,其生成的多视角图像能确保同一物体在不同镜头下始终保持准确的空间属性和物理关系。此外,基于SpatialGen生成的3D高斯场景和真实感全息漫游视频,用户可以如同在真实空间中一样,自由穿梭于生成的场景内,获得沉浸式的体验。
图说:群核空间生成模型SpatialGen数据集情况
AdMaker AI
从0到爆款高转化AI广告生成器
65
查看详情
“目前,AIGC文生视频与图生视频工具已经初步推动了全民视频创作的潮流,但由于时空一致性问题的制约,其离真正的商业化应用仍有一定距离。我们正在研发一款基于3D技术的AI视频生成产品,并计划在今年内正式发布——这或许是全球首款深度融合3D能力的AI视频生成Agent。通过构建3D渲染与视频增强一体化的生成管线,有望显著弥补当前AIGC视频生成中时空一致性不足的问题。”群核科技AI产品总监龙天泽提到。
据了解,现有的AI视频创作中,常因视角切换导致物体位置偏移、空间逻辑混乱、遮挡错误等问题。这背后的原因是多数视频生成模型是基于图像或视频数据训练,缺乏对3D空间结构和物理法则的理解和推演能力。
启动空间智能飞轮战略,持续开源共建技术生态
“对于中国这一代企业家来说,拥抱开源能够发挥更大价值。我们一直坚信,只要你的技术有价值,同时赛道蓬勃发展,在里面一定能够分到一杯羹。”群核科技联合创始人兼董事长黄晓煌说到。
图说:群核科技创始人黄晓煌分享空间智能战略 摄影人/黄航
活动现场,黄晓煌分享了群核科技在空间智能布局上的最新思考。基于酷家乐这一全球最大的空间设计平台,群核科技构建了“空间编辑工具-空间合成数据-空间大模型”的空间智能飞轮,让工具沉淀数据,用数据加速模型训练,用模型提升工具体验,再在工具的广泛应用中沉淀更为丰富的场景数据。资料显示,截至2025年6月30日,群核科技拥有包含超过4.41亿个3D模型及超过5亿个结构化3D空间场景。
“开源是我们战略的重要关键词之一。群核科技从2018年就开始启动了开源战略,逐步开放我们在数据和算法上的能力。相比大语言模型,当前空间大模型还处于初级阶段。我们希望通过开源推动全球空间智能技术快速前进,成为全球空间智能服务提供商,推动属于空间大模型的‘DeepSeek时刻’尽快来临。”
据悉,本次技术开放日分享的两款模型将逐步在HuggingFace、GitHub、魔搭社区等平台面向全球开发者开源。其中,空间生成模型SpatialGen在技术开放日当天已可以在开源网站下载使用,而空间语言模型SpatialLM 1.5未来也将以“SpatialLM-Chat”形式完成开源。
以上就是群核科技发布空间大模型,或解决视频生成时空一致性难题的详细内容,更多请关注其它相关文章!
# 前代
# 仿真优化答案网站下载
# 网站优化培训学费
# 男科医院营销推广方案
# 瑜伽网站怎么建设
# 花式跳绳seo是几级
# 武汉优化网站使用方法
# 长沙县互动网站建设方案
# SEO入门画画临摹
# 深泽外贸网站推广招聘
# 宁波关键词排名推广价钱
# 高斯
# 正式发布
# 一键
# git
# 室内
# 结构化
# 这一
# 的是
# 开源
# 关键词
# hugging face
# 2025
# 2025年
# deepseek
# ai视频
# ai
# 工具
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
阿里达摩院发布免费开放100项AI专利许可的动机是什么?
时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体
2025 WAIC|美团无人机发布第四代新机型
GPT-4不能在麻省理工学院获得计算机科学学位
利用AI技术更好地发展农村电商
「社交达人」GPT-4!解读表情、揣测心理全都会
Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!
AI绘画,还需要懂数学?
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群
令人震惊的特斯拉机器人
人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势
618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍
探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网
视觉中国推出付费AI绘图功能:无版权可用
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相
原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人
英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍
特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量
精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*
好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”
“长沙造”无人机,领先的不止植保
OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%
云南首例达芬奇机器人微创心脏手术成功开展
下一个前沿:量子机器学习和人工智能的未来
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
以计算机视觉技术为基础的库存管理如何改革零售行业
全媒封面丨⑤商汤科技:原创AI算法“发电厂”
Transformer六周年:当年连NeurIPS Oral都没拿到,8位作者已创办数家AI独角兽
微软Bing聊天机器人电脑端即将支持语音提问
首届亚太网络法实务大会召开 九位大咖探讨元宇宙与人工智能发展
OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
“智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力
OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
世界人工智能大会上,科大讯飞宣布与华为联手
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
Spotify计划推出AI驱动的音乐播放器功能
当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来
在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿
再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模
AI室内设计软件流行,室内设计行业如何应对效率变革
中科院自研新一代 AI 大模型“紫东太初 2.0”问世
超级智能到底是什么?
映宇宙集团执行总编辑:元宇宙还是要以人为媒介
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
加强高质量数据供应能力,促进通用人工智能大模型领域的创新
先进技术在防止全球数据丢失方面的作用
IBM和NASA合作发布可追踪碳排放的开源AI基础模型