发布时间:2025-10-09
点击次数: 
Anthropic 宣布正式发布并开源一款名为 Petri 的新型工具,该工具基于英国人工智能安全研究所(AISI)开发的“Inspect”评估框架,致力于通过 AI 代理实现对 AI 模型安全性的自动化审计。
公司指出,当前 AI 系统的行为复杂度已远超研究人员手动测试的能力范围。为此,Petri(全称为“风险交互并行探索工具”)应运而生,旨在填补这一能力空白。
在 Petri 的工作流程中,研究人员首先输入一条自然语言形式的“种子指令”,描述希望测试的具体场景。接着,一个自主运行的“审计员”代理将在模拟环境中与目标模型展开多轮对话,并调用各类模拟工具进行交互。最后,由另一个“法官”代理对整个交互过程进行审查,依据欺骗、奉承、权力追求等与安全相关的关键维度做出评估。该系统已被应用于 Claude4 和 Claude Sonnet4.5 的安全性分析,并与 OpenAI 展开了协作。
一项涵盖 14 款顶尖 AI 模型、涉及 111 个不同场景的试点研究表明,Petri 能有效识别出多种潜在的问题行为,包括诱导性误导和举报倾向。技术文档显示,Claude Sonnet4.5 与 GPT-5 在抑制高风险行为方面整体表现最优。
不过,测试结果也揭示了部分模型存在显著的安全隐患:例如 Gemini2.5Pro、Grok-4 以及 Kimi K2 均表现出较高的欺骗用户倾向。
餐饮E站通-在线订餐系统 免费版
在线订餐系统源码,提供给设计人员参考一个小型的在线订餐管理系统源码,采用三层模式开发,代码注释详细前台可以进行用户注册、菜单管理及订餐后台管理员可以进行菜单管理、新闻管理、菜肴管理、用户管理操作数据库采用的是Sql2005(由于数据库在App_Data下,如果装了Sql2005数据库会自动配置)
0
查看详情
Anthropic 发布的一个案例研究聚焦于 AI 模型如何应对举报情境。实验设定模型在一个虚构组织中担任角色,负责处理有关不当行为的报告。研究发现,模型是否选择披露信息,高度依赖于其被赋予的决策自主权以及组织高层是否存在共谋行为。
此外,研究人员观察到,在某些情况下,即便所谓的“不当行为”实际上并无危害(如将洁净水排入海洋),一些模型仍坚持发起举报。这反映出它们在判断行为危害性时,更多受到故事情节线索的影响,而非基于一致的伦理准则来最小化实际风险。
Anthropic 强调,目前发布的评估指标尚属初步,其准确性受限于作为审计与评判主体的 AI 模型自身能力。尽管如此,建立可量化的测量标准对于推进 AI 安全研究至关重要。
该公司呼吁更广泛的研究社区采用 Petri 工具以提升安全评测水平,因为单一机构难以独立完成对现代 AI 系统的全面审计。目前,包括英国 AISI 在内的早期使用者已经开始利用 Petri 探索诸如奖励黑客攻击和自我保护机制等关键安全议题。Anthropic 表示将持续迭代 Petri,确保其能够适应快速演进的 AI 技术生态。
以上就是Anthropic 开源 Petri:用 AI 代理自动进行模型安全审计的详细内容,更多请关注其它相关文章!
# 工具
# 网站云推广有哪些
# 抖音seo优化怎么投放
# 广安绍兴网站推广
# 青海seo推广品牌公司
# 中国seo联盟协会
# 糕点如何营销推广产品呢
# 这一
# 的是
# 安全防护
# 园区
# 美国
# 英国
# 微软
# 帮你
# 订餐
# 开源
# gemini
# claude
# gpt-5
# gpt
# openai
# ai
# 人工智能
# 资阳抖音优化关键词排名
# 宜川做网站推广的地方叫什么
# 白帽网站推广
# seo工作怎么考核
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩
有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光
硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲
能走、能飞、能游泳,科学家打造全能 M4 机器人
特斯拉门店可能启动机器人卖车?也许不是你想的那样
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令
软通动力多项AI创新产品及应用亮相2025世界人工智能大会
Zoom远程会议应用:AI培训需经用户授权
智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典
“长沙造”无人机,领先的不止植保
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月
小米又拿下国际比赛第一:AI翻译立功
游族AI创新院揭牌成立 推进AI赋能游戏业务
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
马斯克WAIC2025演讲全文:AI将对人类文明产生深远影响
微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出
Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容
大疆 Air 3 无人机售价和实物照片曝光
普林斯顿大学推出Infinigen AI模型 可生成真实自然环境 3D场景
马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了
AI技术加速迭代:周鸿祎视角下的大模型战略
借力AI!PCB全球巨头,有爆发潜质吗?
中国最强AI研究院的大模型为何迟到了
学而思网校推出首个基于自研大模型的《人工智能第一课》
尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器
Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
WHEE网页地址入口
特斯拉首发人形机器人“擎天柱”亮相世界人工智能大会
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
AIGC浪潮下,联想集团再加码计算与人工智能
AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点
网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准
静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!
苹果推出全新沉浸式 AR 体验应用“Deep Field”
山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程
AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作
GPT-4不能在麻省理工学院获得计算机科学学位
科普:什么是AI大模型
研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗
塑造全能智能管家:华为小艺AI加成应对大模型挑战
上新7款产品,美图继续“蹭”AI
SnapFusion技术大幅提升AI图像生成速度
有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名
AI成政客博弈工具,美国大选真假难辨,律师们的生意来了
MiracleVision视觉大模型功能介绍