400 128 6709

行业新闻

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

发布时间:2024-10-09点击次数:

最近,bytedance research 的第二代机器人大模型 —— gr-2,终于放出了官宣视频和技术报告。gr-2 以其卓越的泛化能力和多任务通用性,预示着机器人大模型技术将爆发出巨大潜力和无限可能。gr-2登场!bytedance research提出机器人大模型,具备世界建模和强大泛化能力

GR-2 官方项目页面:

https://gr2-manipulation.github.io

初识 GR-2:百炼出真金

和许多大模型一样,GR-2 的训练包括预训练和微调两个过程。

如果把机器人和人做比较,预训练过程就好像是人类的 “婴儿期”。而 GR-2 的婴儿期与其他机器人截然不同。

在预训练的过程中,GR-2 在互联网的海洋中遨游。

它在 3800 万个互联网视频片段上进行生成式训练,也因此得名 GR-2(Generative Robot 2.0)。这些视频来自学术公开数据集,涵盖了人类在不同场景下(家庭、户外、办公室等)的各种日常活动。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

这个过程,就像是它在经历一个快速的 “生长痛”,迅速学会了人类日常生活中的各种动态和行为模式。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                               该图展示了 GR-2 预训练数据中的样本视频和动词分布。下图中的 y 轴是最热门单词的对数频率。

这种预训练方式使 GR-2 具备了学习多种操作任务和在多种环境中泛化的潜能。庞大的知识储备,让 GR-2 拥有了对世界的深刻理解,仿佛它已经环游世界无数次。

微调的艺术:视频生成能力拔高动作准确率

据悉,GR-2 的开发团队采用了一种创新的微调方法。

在经历大规模预训练后,通过在机器人轨迹数据上进行微调,GR-2 能够预测动作轨迹并生成视频。

GR-2 的视频生成能力,让它在动作预测方面有着天然的优势。它能够通过输入一帧图片和一句语言指令,预测未来的视频,进而生成相应的动作轨迹。

如下图所示,只需要输入一句语言指令:“pick up the fork from the left of the white plate”,就可以让 GR-2 生成动作和视频。可以看到,机械臂从白盘子旁边抓起了叉子。右图中预测的视频和真机的实际运行也相差无几。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

以下是几个进一步展示 GR-2 视频生成能力的示例,包括把物品放进烤箱、将物品置于咖啡壶嘴下方等任务。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

这种能力,不仅提升了 GR-2 动作预测的准确性,也为机器人的智能决策提供了新的方向。

Scaling Law:机器人 + 大模型的要诀

在人工智能领域,Scaling Law 是一个备受瞩目的概念。它描述了模型性能与其规模之间的关系。对于 GR-2 这样的机器人模型来说,这一法则尤为关键。

随着模型规模的增加,GR-2 的性能呈现出显著的提升。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

(a)(b)(c) 分别展示了不同尺寸 GR-2 在 Ego4d、RT-1、GR-2 三个数据集的验证集上的视频生成损失。(d) 展示了不同尺寸 GR-2 在真机实验中的成功率。

在 7 亿参数规模的验证中,团队看到了令人鼓舞的结果:更大的模型不仅能够处理更多复杂的任务,而且在泛化到未见过的任务和场景时也表现得更加出色。

这表明,通过扩大模型规模,我们可以解锁机器人更多的潜能,使其在多任务学习和适应新环境方面更加得心应手。

多任务学习与泛化:未知场景的挑战者

在多任务学习测试中,GR-2 能够完成 105 项不同的桌面任务,平均成功率高达 97.7%。

GR-2 的强大之处不仅在于它能够处理已知任务,更在于其面对未知场景和物体时的泛化能力。无论是全新的环境、物体还是任务,GR-2 都能够迅速适应并找到解决问题的方法。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

                            我开、我放……我眼里有活儿

更让人惊艳的是,GR-2 还能够与大语言模型相结合,完成复杂的长任务,并与人类进行互动。 

比如,我们想要喝一杯咖啡。GR-2 会先从托盘里拿起杯子,并将其放在咖啡壶嘴下方。接着,它会按下咖啡机上的按钮来煮一杯咖啡。最后,当咖啡煮好了,机器人会把杯子放回托盘上。整个过程无需人类干预。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

又如,我们早餐想要吃点东西。根据场景中的物体,机器人决定为我们制作一份烤面包。机器人首先按下烤面包机上的开关来烤制面包。然后它拿起烤好的面包,并将其放入红色的碗中。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                               认真工作中,勿扰

ByteDance Research 还想强调,GR-2 能够鲁棒地处理环境中的干扰,并通过适应变化的环境成功完成任务。

以果蔬分类任务为例:桌子上放置着水果和蔬菜,我们需要机器人帮忙将水果和蔬菜分装到不同的盘子里。机器人能够自主识别物体的类别,并自动将它们放入正确的盘子中。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

当在机器人移动的过程中移动盘子,GR-2 依然能回过神来,准确找回它要放的目标盘子。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                             穿越“果”群,仍能找到你

工业应用中的突破:端到端的丝滑物体拣选

在实际应用中,GR-2 相比前一代的一个重大突破在于能够端到端地完成两个货箱之间的物体拣选。

这个任务要求机器人从一个货箱中逐个拿起物体,并将其放入旁边的货箱。看似简单,但在实际应用中,能够实现这个需求的多模态端到端模型却难得一见。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                                端到端拣选任务场景

如下图所示,GR-2 可以实现货箱之间丝滑且连续的物体拣选。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                              真 · 无情的拣选机器人

无论是透明物体、反光物体、柔软物体还是其他具有挑战性的物体,GR-2 均能准确抓取。这展现了其在工业领域和真实仓储场景的巨大潜力。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

除了能够处理多达 100 余种不同的物体,例如螺丝刀、橡胶玩具、羽毛球,乃至一串葡萄和一根辣椒,GR-2 在未曾见过的场景和物体上也有着出色的表现。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                               拣选任务中的 122 个测试物品,其中只有 55 个物体参与训练。

GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力

                              GR-2 可以识别透明的、可变形的或反光的物体。

话分两头,尽管 GR-2 在互联网视频上接受了大规模的预训练,但也存在一些进步空间。例如,真实世界动作数据的规模和多样性仍然有限。

GR-2 的故事,是关于 AI 如何推动机器人发展的故事。它不仅仅是一个机器人大模型,更是一个能够学习和适应各种任务的智能体。我们有理由相信,GR-2 在实际应用中拥有巨大潜力。

GR-2 的旅程,才刚刚开始。

以上就是GR-2登场!ByteDance Research提出机器人大模型,具备世界建模和强大泛化能力的详细内容,更多请关注其它相关文章!


# gr-2  # 停止解析 seo  # 扬州网站建设icp备  # 新网站怎么推广呀赚钱  # 日照正规网站建设哪个好  # EMBA论文网站建设  # 怎么建立优化网站  # 广东网站建设包括什么  # 苏州网站推广大全  # 解决问题  # 咖啡壶  # 见过  # 一句  # 图中  # 它在  # 端到  # 拿起  # 互联网  # 货箱  # git  # 产业  # 广东机电网站推广热线  # 福建seo优化哪个专业 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 当TS遇上AI,会发生什么?  一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱  为什么很多人对纽约《人工智能招聘法》感到生气?  12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码  联想创投携手12家被投企业MWC展示元宇宙、机器人等技术  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  万魔推出AI主攻的运动耳机,开启十年研发新纪元  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  大模型新品出现井喷,AI产业迎来新时代  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  大型无人机FH-98国内首次夜航转场成功  如何成功实施人工智能?  在心理治疗中用VR技术,治疗成效显著提高  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  优化系统韧性:故障恢复与监控在RabbitMQ中的应用  人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱  360°/180°双模式,佳能公布可折叠小体积的VR全景相机  官宣!爱康AI未来之夜三大亮点提前剧透!  日本演员工会提出AI立法建议 要求建立“声音肖像权”  Vision Pro头显重磅发布;苹果收购AR厂商Mira  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  即将到来:AI婚纱设计软件实际测试,人工智能即将开创婚纱设计新纪元  GPT-4是如何工作的?哈佛教授亲自讲授  ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等  提升工作效率的智能工具:Zapier 让工作变得更简单!  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  煤电“三改联动”需多措联动  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测  AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  智能技术提高现代商业运营的7七种方式  大疆 Air 3 无人机售价和实物照片曝光  Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代  换流站无线物联网络为新型电力系统铺设“数字之路”  上海发布大模型政策 打造AI“模”都  Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”  世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办  借助ChatGPT快速上手ElasticSearch dsl  6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI  生活垃圾智能分类机器人社区展“才能”,征求居民意见 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司