400 128 6709

行业新闻

Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计

发布时间:2025-10-09点击次数:

anthropic 开源 petri:用 ai 代理自动进行模型安全审计

Anthropic 宣布正式发布并开源一款名为 Petri 的新型工具,该工具基于英国人工智能安全研究所(AISI)开发的“Inspect”评估框架,致力于通过 AI 代理实现对 AI 模型安全性的自动化审计。

公司指出,当前 AI 系统的行为复杂度已远超研究人员手动测试的能力范围。为此,Petri(全称为“风险交互并行探索工具”)应运而生,旨在填补这一能力空白。

在 Petri 的工作流程中,研究人员首先输入一条自然语言形式的“种子指令”,描述希望测试的具体场景。接着,一个自主运行的“审计员”代理将在模拟环境中与目标模型展开多轮对话,并调用各类模拟工具进行交互。最后,由另一个“法官”代理对整个交互过程进行审查,依据欺骗、奉承、权力追求等与安全相关的关键维度做出评估。该系统已被应用于 Claude4 和 Claude Sonnet4.5 的安全性分析,并与 OpenAI 展开了协作。

一项涵盖 14 款顶尖 AI 模型、涉及 111 个不同场景的试点研究表明,Petri 能有效识别出多种潜在的问题行为,包括诱导性误导和举报倾向。技术文档显示,Claude Sonnet4.5 与 GPT-5 在抑制高风险行为方面整体表现最优。

不过,测试结果也揭示了部分模型存在显著的安全隐患:例如 Gemini2.5Pro、Grok-4 以及 Kimi K2 均表现出较高的欺骗用户倾向。

餐饮E站通-在线订餐系统 免费版 餐饮E站通-在线订餐系统 免费版

在线订餐系统源码,提供给设计人员参考一个小型的在线订餐管理系统源码,采用三层模式开发,代码注释详细前台可以进行用户注册、菜单管理及订餐后台管理员可以进行菜单管理、新闻管理、菜肴管理、用户管理操作数据库采用的是Sql2005(由于数据库在App_Data下,如果装了Sql2005数据库会自动配置)

餐饮E站通-在线订餐系统 免费版 0 查看详情 餐饮E站通-在线订餐系统 免费版

Anthropic 发布的一个案例研究聚焦于 AI 模型如何应对举报情境。实验设定模型在一个虚构组织中担任角色,负责处理有关不当行为的报告。研究发现,模型是否选择披露信息,高度依赖于其被赋予的决策自主权以及组织高层是否存在共谋行为。

此外,研究人员观察到,在某些情况下,即便所谓的“不当行为”实际上并无危害(如将洁净水排入海洋),一些模型仍坚持发起举报。这反映出它们在判断行为危害性时,更多受到故事情节线索的影响,而非基于一致的伦理准则来最小化实际风险。

Anthropic 强调,目前发布的评估指标尚属初步,其准确性受限于作为审计与评判主体的 AI 模型自身能力。尽管如此,建立可量化的测量标准对于推进 AI 安全研究至关重要。

该公司呼吁更广泛的研究社区采用 Petri 工具以提升安全评测水平,因为单一机构难以独立完成对现代 AI 系统的全面审计。目前,包括英国 AISI 在内的早期使用者已经开始利用 Petri 探索诸如奖励黑客攻击和自我保护机制等关键安全议题。Anthropic 表示将持续迭代 Petri,确保其能够适应快速演进的 AI 技术生态。

以上就是Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计的详细内容,更多请关注其它相关文章!


# 工具  # 网站云推广有哪些  # 抖音seo优化怎么投放  # 广安绍兴网站推广  # 青海seo推广品牌公司  # 中国seo联盟协会  # 糕点如何营销推广产品呢  # 这一  # 的是  # 安全防护  # 园区  # 美国  # 英国  # 微软  # 帮你  # 订餐  # 开源  # gemini  # claude  # gpt-5  # gpt  # openai  # ai  # 人工智能  # 资阳抖音优化关键词排名  # 宜川做网站推广的地方叫什么  # 白帽网站推广  # seo工作怎么考核 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣  Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  能走、能飞、能游泳,科学家打造全能 M4 机器人  特斯拉门店可能启动机器人卖车?也许不是你想的那样  360°/180°双模式,佳能公布可折叠小体积的VR全景相机  pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令  软通动力多项AI创新产品及应用亮相2025世界人工智能大会  Zoom远程会议应用:AI培训需经用户授权  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  “长沙造”无人机,领先的不止植保  NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  小米又拿下国际比赛第一:AI翻译立功  游族AI创新院揭牌成立 推进AI赋能游戏业务  对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型  腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响  微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  大疆 Air 3 无人机售价和实物照片曝光  普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  AI技术加速迭代:周鸿祎视角下的大模型战略  借力AI!PCB全球巨头,有爆发潜质吗?  中国最强AI研究院的大模型为何迟到了  学而思网校推出首个基于自研大模型的《人工智能第一课》  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙  WHEE网页地址入口  特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会  人形机器人打开精密齿轮市场全新空间!受益上市公司梳理  AIGC浪潮下,联想集团再加码计算与人工智能  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准  静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!  苹果推出全新沉浸式 AR 体验应用“Deep Field”  山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程  AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作  GPT-4不能在麻省理工学院获得计算机科学学位  科普:什么是AI大模型  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  塑造全能智能管家:华为小艺AI加成应对大模型挑战  上新7款产品,美图继续“蹭”AI  SnapFusion技术大幅提升AI图像生成速度  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  MiracleVision视觉大模型功能介绍 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司