400 128 6709

行业新闻

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

发布时间:2024-11-07点击次数:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单llm调用,成为网络任务智能体新sota

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算,它可以帮你预订酒店。既拥有海量常识,又能做长期规划的大语言模型(LLM),自然成为了智能体常用的基础模块。

于是上下文学习示例、任务技巧、多智能体协同、强化学习算法…… 一切适用于通用智能体的想法都抢着在大模型落地。

然而有一个问题始终横亘在 LLM 和智能体之间:基于 LLM 的网络智能体的行动 / 观测空间与 LLM 训练数据的空间相去甚远。

智能体在充斥着具身行为的行动空间(如鼠标悬停、键盘组合键)和遍布前端功能强化、格式渲染的观测空间下运作,大语言模型的理解和推理能力能充分发挥作用吗?尤其是大语言模型的主要训练任务是文本补全、问答和对齐人类偏好,这一点值得思考。

来自伊利诺伊大学香槟分校和亚马逊的研究人员选择和这些问题进一步对话。他们去除了上下文示例、技巧、多智能体系统,仅仅通过行动 / 观测空间与 LLM 的训练任务对齐。他们训练的 AgentOccam 成为了零样本基于 LLM 的网络智能体新 Sota。不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA                               帮你写email 不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
                                 帮你找导师

这正呼应了奥卡姆剃刀原则:「若无必要,勿增实体」。然而换个思考的角度,AgentOccam 的研究团队也想发问:构建通用智能体时,在铺设复杂的系统框架前,是否已经优化了行动 / 观测空间,让这些功能模块达到了最优状态?
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
  • 论文链接:https://arxiv.org/abs/2410.13825

  • 论文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及动机

某天你刷着短视频,看中了主播手中拿着的商品。于是,你兴致勃勃地对智能助手说:「我是学生,让这个老板送我一张优惠券!」

随后,智能体申请了你的私人账号权限、后台私信商家、绘声绘色地写下「我是学生」,发送消息,一套动作无需人为干预,行云流水......一切这样的任务,再也不必动手,都有智能体代劳。

大语言模型是构建智能体的热门选择。过去,基于 LLM 的网络智能体通常专注于让智能体学会某种应用,比如构建上下文学习样本、积累任务经验与技巧、以及多智能体角色扮演等等。然而,在实际交互中,智能体的行动 / 观测空间与 LLM 的技能点不太匹配,这之间的差距却少有人研究。

于是,针对如何对齐基于 LLM 的网络智能体的观测和行动空间与其训练期间学到的功能,来自伊利诺伊大学香槟分校和亚马逊的研究人员们展开了研究。

网络智能体需要准确地从格式各异、编码脚本不一的网页中提取信息,并在网页上定义的动作(例如,鼠标滑轮滚动、点击或悬停在按钮上)中进行选择。这些网络观测和行动空间在 LLM 的预训练和后续训练数据中都较为罕见,这阻碍了 LLM 充分调动潜能,完成任务。

因此,基于不让智能体策略变得更复杂,而是让智能体与 LLM 更加匹配的想法,由此构建的智能体得名 AgentOccam。

形式化与方法

该团队通过部分可观测的马尔可夫决策过程(POMDP),将网络交互过程形式化为:

在 POMDP 中,观测 o∈O 是智能体从网络环境接收到的信息,例如 HTML,以及任何指令和提示。行动 a∈A 是网络环境认可的动作指令。 

为解决 POMDP,常见目标是寻找策略不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA,最大化预期累积奖励,其中 h_t 表示观测历史不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

在基于 LLM 的网络智能体设计中,这等价于借助一个或多个基础 LLM 策略 不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
和一组算法模块来设计策略不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

在这项工作中,该团队专注于一类特殊的策略,可以表示为:不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA,其中 f 和 g 是处理观测和行动空间的基于规则的函数,该团队将其称为「观测和行动空间对齐问题」

在这样的问题设置下,接下来的所有更改仅应用于观测和行动。值得注意的是,并非所有以往方法中的智能体策略都能以这种方式表示。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
例如上表中,基于搜索的算法需要一个顶层控制程序来选择行动并触发回溯;带有评估器、反思或记忆模块的方法也需要一个管理中心来在主 LLM 和这些辅助模块或其他角色扮演 LLM 之间切换。

不同于以往复杂化智能体策略,我们能否仅通过优化观测和行动映射 f 和 g,使用基础 LLM 策略 图片 构建一个强大的网络智能体?这是 AgentOccam 关注的问题。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
如上图所示,AgentOccam 包括三个组成部分:
  • 首先,减少非必要的网络交互动作,让智能体的具身和琐碎互动需求达到最小;

    Remover Remover

    几秒钟去除图中不需要的元素

    Remover 304 查看详情 Remover
  • 其次,消除冗余和不相关的网页元素,并重构网页内容块,以获取更简洁但同样信息丰富的表示,从而精炼观察空间;

  • 最后,引入两个规划动作(分支和修剪),这使得智能体能够以规划树结构自组织导航工作流,并使用相同结构过滤历史步以进行回放。

整个框架通过一套适用于所有标记语言的通用规则来格式化网页,无需依赖测试基准中的任务相关信息。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
网络智能体的行动空间规定了可以用来与网络环境交互的有效命令。

研究团队从智能体常见的失败中得出总结:想要成功完成任务,需要编辑行动空间来解决两个关键问题:第一,去除 LLM 难以理解且经常误用的无关行动;第二,当执行任务需要规划、尝试多个潜在路径时,要提高智能体的记忆和规划能力。

为此,该团队提出了对应的解决方法。第一个问题可以通过简单地移除或合并操作来解决(如上图中的步骤 1 和 2)。对于第二个问题,过去的研究通常依赖人工制定规则或任务技巧,但这些方法难以泛化。在本研究中,LLM 将自主生成计划和管理任务流程(如步骤 3 所示)。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
AgentOccam 的观测空间(提示词)包含了任务概述的通用指令、期望的输出和可用操作说明,以及关于当前任务目标、智能体过去的交互记录和最新的观察信息。

过往互动和当前观测的部分占据了最多的字符数。这主要归因于两个因素:单页面的长度和历史跨度的范围,这是 AgentOccam 观测空间的主要优化对象。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
网页标记语言主要用于前端加载和渲染,往往包含大量格式化字符,显得冗余且重复(如上图步骤 1 所示)。因此,此时的目标是优化这些表示方式,使得单页内容对 LLMs 更加简洁易读。

将观测历史作为输入,对于执行长程任务至关重要。因为一些关键信息可能不会显示在当前页面上。然而,观测历史也会显著增加上下文长度,并增加推理难度以及推断成本。

为了解决这个问题,设置仅选择先前网页上最重要和相关的信息,这一选择依据两个规则,分别基于关键节点和规划树,见于步骤 2 和 3。

结果

研究团队在 WebArena 上评估了 AgentOccam 性能。WebArena 含有 812 项任务,横跨网购、社交网站、软件开发、在线商贸管理、地图等。

测试对象为 AgentOccam 框架下的 GPT-4-Turbo。对比的基线包括:一、WebArena 随配智能体,二、SteP,前 WebArena 上最优智能体,涵盖 14 条人类专为 WebArena 任务编写的技巧,三、多智能体协同方法 WebPilot;四、总结智能体交互经验的工作 AWM。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
从上表不难看出,AgentOccam 性能优于以往及同期工作。其中,AgentOccam 分别以 9.8(+29.4%)和 5.9(+15.8%)的绝对分数领先往期和同期工作,并且通过其观测与行动空间的对齐,使得相似的基本网络智能体的成功率提高了 26.6 点(+161%)。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
消融实验

逐模块对比行动与观测空间的对齐对最终结果的贡献。从下表可以看出,行动空间对齐能使智能体完成更多 click、type 等引导环境变化的动作,观测空间对齐则减少大模型调用的字符数与智能体完成任务所需的步数。
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
LLM-as-a-Judge 

研究团队发现,智能体的决策行为波动性很强。简而言之,面对一个目标,智能体有一定概率做出正确的行为决断,但由于 token 预测的随机性,它可能做出一些高成本、低回报的决定。这也导致它在后续步骤中难以纠正之前的错误而失败。

例如,要求智能体在某个最相关的话题下发布帖子,单次 LLM 调用的 AgentOccam 往往轻率地选择话题,未考虑「最相关」的要求。

为了解决此类问题,他们引导 AgentOccam 生成单步内所有可能的行动,这系列行动将交付另一个 Judge 智能体(同样调用 GPT-4-turbo)决断,做出最大化回报的选择。

与复合策略结合使用

复合策略中,与任务相关的经验可以提升智能体性能。同时,不因为加入了更多背景知识扰乱决策,不会影响泛化性,能够纠正错误行为模式。

由于行为 / 观测空间对齐和复合策略方法正交,因此能结合利用。该团队试验将 AgentOccam 与 1)SteP 和 2)上述的 LLM-as-a-Judge 方法联合使用。

对于和前 SOTA 方法 SteP 联合,由于它引入人类编写的 WebArena 任务攻略,在经验密集型任务,如购物网页任务中,人类撰写的引导性经验大幅提升任务成功率。

而在常识泛化密集型任务,如社交网页发帖任务中,不相关知识出现会错误扰乱智能体决策。对于 LLM-as-a-Judge 方法,Judge 角色的引入不影响智能体的泛化性,同时纠正了智能体仓促决策的错误行为模式,在 WebArena 上进一步提升 2.6 的绝对分数。

以上就是不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA的详细内容,更多请关注其它相关文章!


# 网络智能体  # 欧洲网红推广网站推荐  # 欣悦网络seo优化师  # 小程序营销推广方式  # 大足区seo网络营销推广方式  # 石阡县营销推广部门电话  # 兴城响应式网站建设  # 互动  # 多个  # 鼠标  # 完成任务  # 我是  # 这是  # 所示  # 亚马逊  # 伊利诺伊  # 仅凭  # type  # follow  # 邮箱  # ai  # 产业  # 农博会营销推广方案  # 邢台高端网站建设推广  # 大同网站建设优化推广  # 优化网站的意思解释 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  首届全国体育人工智能大会在首都体育学院召开  AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit  GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群  阿里达摩院向公众免费开放100项AI专利许可  跟着AI大热的“光模块”到底是什么?  小米发布CyberDog2 - 他们的第二代仿生四足机器人展示  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  GPT-4是如何工作的?哈佛教授亲自讲授  马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响  OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  万魔推出AI主攻的运动耳机,开启十年研发新纪元  Databricks推出人工智能模型共享机制,可令开发者与公司“双赢”  Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话  人工智能快速发展 打开就业新空间  618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍  羚客系统即将升级,推出全新的AI数字化工具  时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了  自然语言生成在智能家居设备中的应用  如布科技发布新产品AI口袋学习机S12  谷歌新安卓机器人logo曝光:头更大了  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  科技数码圈的新物种 乐天派桌面机器人 AI +安卓+机器人 首发价1799元  「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行  对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator  华为将于 7 月发布面向 AI 大模型的新款存储产品  新华全媒+|AI:当心,我可能欺骗了你!  找对了风口想不火都难,乐天派机器人,安卓机器人的最终形态?  IBM CEO克里希纳:人工智能潜在创新无法被监管  复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐  阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好  华为即将推出HarmonyOS 4,再度领先行业的AI技术  长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”  令人震惊的特斯拉机器人  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  机器人加速!稀土永磁也被带火,持续性如何?  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  生成式人工智能如何改变云安全的游戏规则  映宇宙数字人“映映”亮相ChinaJoy,展示AI黑科技实现用户互动  通用医疗人工智能如何革新医疗行业?  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  Gartner发布中国企业人工智能趋势浪潮3.0  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司