发布时间:2024-01-11
点击次数: 几乎是和斯坦福“炒虾洗碗”机器人同一时间,谷歌deepmind也发布了最新具身智能成果。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
并且是三连发:
先是一个主打提高决策速度的新模型,让机器人的操作速度(相比原来的Robotics Transformer)提高了14%——快的同时,质量也没有下滑,准确度还上升了10.6%。

然后再来一个专攻泛化能力的新框架,可以给机器人创建运动轨迹提示,让它面对41项从未见过的任务,取得了63%的成功率。

别小看这个数组,对比之前的29%,进步可谓相当大。
最后是一个机器人数据收集系统,可以一次管理20个机器人,目前已从它们的活动中收集了77000次实验数据,它们将帮助谷歌更好地完成后续训练工作。

那么,这三个成果具体是什么样?我们一个一个来看。
谷歌指出,要实现真正可进入现实世界的机器人,需要解决两个基本挑战。
1、新任务推广能力
2、提高决策速度
本次三连发的前两项成果就主要在这两大领域作出改进,且都建立在谷歌的基础机器人模型Robotics Transformer(简称RT)之上。
首先来看第一个:帮助机器人泛化的RT-Trajectory。
对于人类来说,譬如完成擦桌子这种任务简直再好理解不过了,但机器人却不是很懂。
不过好在我们可以通过多种可能的方式将这一指令传达给它,让它作出实际的物理行动。
一般来说,传统的方式就是将任务映射为一个个特定的动作,然后让机械臂完成,例如对于擦桌子,就可以拆解为“合上夹具、向左移动、向右移动”。
很明显,这种方式的泛化能力很差。
在此,谷歌新提出的RT-Trajectory通过给机器人提供视觉提示的方法来教它完成任务。

具体而言,由RT-Trajectory控制的机器人在训练时会加入2D轨迹增强的数据。
这些轨迹以RGB图像的形式呈现,包括路线和关键点,在机器人学习执行任务时提供低级但非常实用的提示。
有了这个模型,机器人执行从未见过的任务的成功率直接提高了1倍之多(相比谷歌的基础机器人模型RT-2,从29%=>63%)。
更值得一提的是,RT-Trajectory可以用多种方式来创建轨迹,包括:
通过观看人类演示、接受手绘草图,以及通过VLM(视觉语言模型)来生成。

泛化能力上来以后,我们再来关注决策速度。
谷歌的RT模型采用的是Transformer架构,虽然Transformer功能强大,但严重依赖于有着二次复杂度的注意力模块。
因此,一旦RT模型的输入加倍(例如给机器人配上更高分辨率的传感器),处理起来所需的计算资源就会增加为原来的四倍,这将严重减慢决策速度。
为了提高机器人的速度,谷歌在基础模型Robotics Transformer上开发了SARA-RT。
SARA-RT使用一种新的模型微调方法让原来的RT模型变得更为高效。
这种方法被谷歌称之为“向上训练”,它主要的功能就是将原来的二次复杂度转换为线性复杂度,同时保持处理质量。
将SARA-RT应用于具有数十亿参数的RT-2模型时,后者可以在各种任务上实现更快的操作速度以及更高的准确率。
TTSMaker
TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。
2275
查看详情
同样值得一提的是,SARA-RT提供的是一种通用的加速Transformer的方法,且无需进行昂贵的预训练,因此可以很好地推广开来。
最后,为了帮助机器人更好地理解人类下达的任务,谷歌还从数据下手,直接搞了一个收集系统:AutoRT。
这个系统将大模型(包括LLM和VLM)与机器人控制模型(RT)相结合,不断地指挥机器人去执行现实世界中的各种任务,从而产生数据并收集。
具体流程如下:
让机器人“自由”接触环境,靠近目标。
然后通过摄像头以及VLM模型来描述眼前的场景,包括具体有哪些物品。
接着,LLM就通过这些信息来生成几项不同的任务。
注意了,生成以后机器人并不马上执行,而是利用LLM再过滤一下哪些任务可以独立搞定,哪些需要人类远程控制,以及哪些压根不能完成。
像不能完成的就是“打开薯片袋”这种,因为这需要两只机械臂(默认只有1只)。

再然后,做完这个筛选任务以后,机器人就可以去实际执行了。
最后由AutoRT系统完成数据收集并进行多样性评估。
据介绍,AutoRT可一次同时协调多达20个机器人,在7个月的时间内,一共收集了包括6650个独特任务在内的77000次试验数据。
最后,对于此系统,谷歌还特别强调了安全性。
毕竟AutoRT的收集任务作用于现实世界,“安全护栏”不能少。
具体而言,基础安全守则由为机器人进行任务筛选的LLM提供,它的部分灵感来自艾萨克·阿西莫夫的机器人三定律——首先也是最重要的是“机器人不得伤害人类。
其次还包括要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。
但这还远远不够。
因此AutoRT还配有常规机器人技术中的多层实用安全措施。
例如,机器人在其关节上的力超过给定阈值时自动停止、所有行动都可由保持在人类视线范围内的物理开关停止等等。

还想进一步了解谷歌的这批最新成果?
好消息,除了RT-Trajectory只上线论文以外,其余都是代码和论文一并公布,欢迎大家进一步查阅~
说起谷歌机器人,就不得不提RT-2(本文的所有成果也都建立之上)。
这个模型由54位谷歌研究员耗时7个月打造,今年7月底问世。
嵌入了视觉-文本多模态大模型VLM的它,不仅能理解“人话”,还能对“人话”进行推理,执行一些并非一步就能到位的任务,例如从狮子、鲸鱼、恐龙这三
个塑料玩具中准确捡起“已灭绝的动物”,非常惊艳。

如今的它,在短短5个多月内便迎来了泛化能力和决策速度的迅速提升,不由地让我们感叹:不敢想象,机器人真正冲进千家万户,究竟会有多快?
以上就是谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人的详细内容,更多请关注其它相关文章!
# 训练
# ai
# 聚合页如何制作seo
# 黑帽SEO被骗
# 淘宝店铺做SEO
# 郑州优化网站按天计费
# 公司网站如何推广赚钱
# 单页网站建设源码
# 在线seo优化口碑推荐
# 行业网站推广有哪些
# 百色搜狗问答推广营销
# 临沂网站建设最好的公司
# 让它
# 谁能
# 再来
# 更高
# 阿西莫夫
# 见过
# 是一个
# 开源
# 的是
# 两大
# follow
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择
一文看懂基础模型的定义和工作原理
贫穷让我预训练
五个IntelliJ IDEA插件,高效编写代码
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域
2025年贵州省青少年机器人竞赛在安举行
两型无人机完成交付!国家级机动观测业务正式启动
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代
阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
DeepMind推惊世排序算法,C++库忙更新!
乐天派AI桌面机器人提供的正能量情绪价值直接拉满,妥妥的治愈系
大疆 Air 3 无人机售价和实物照片曝光
美图公司:Wink国内首发AI画面拓展功能
2025世界人工智能大会成功召开
英伟达CEO宣称生成式AI已迎来“划时代时刻”
百度文心一言App上架苹果商店,人工智能创作引发热议
官宣!爱康AI未来之夜三大亮点提前剧透!
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
“具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?
无人机自主巡检为高海拔输电线路运维添“新彩”
2025年的网络分区:人工智能和自动化如何改变事物
QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机
物联网和人工智能的协同作用:释放预测性维护的潜力
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
华为盘古AI模型实现秒级全球气象预报时间缩短
日本演员工会提出AI立法建议 要求建立“声音肖像权”
国家发改委组织工业机器人产业高质量发展现场会
深企派遣无人机救援队赴京津冀开展防汛救灾任务
套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化
基于信息论的校准技术,CML让多模态机器学习更可靠
电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC
时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体
码刻 | 48小时Hackathon,源码见证新生代AI创新的发生
懒人必备的家居清洁好物,石头自清洁扫拖机器人G20
掌阅科技对话式AI应用“阅爱聊”开启内测
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
参考封面|人工智能“淘金热”
普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|
李开复:未来几年,人工智能会革了所有人的命,除非你这么做
借助ChatGPT快速上手ElasticSearch dsl
软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处