发布时间:2024-05-23
点击次数: 刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Anthropic已经确认了如何在Claude Sonnet中表示征函数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。

研究论文:https://transformer-circuits.pub/2025/scaling-monosemanticity/index.html
当前,我们通常将人工智能模型视为一个黑匣子:有东西进去就会有响应出来,但不清楚为什么模型会给出特定的响应。这使人们很难相信这些模型是安全的:如果我们不知道它们是如何工作的,我们怎么知道它们不会给出有害的、有偏见的、不真实的或其他危险的响应?我们如何相信它们会安全可靠?
打开“黑匣子”并不一定有帮助:模型的内部状态(模型在编写响应之前“思考”的内容)由一长串数字(“神经元元激活”)组成,没有明确的含义。
Anthropic的研究团队与Claude等模型进行交互发现,很明显模型能够理解和运用广泛的概念,但研究团队无法通过直接观察神经元来辨别它们。事实证明,每个概念都是通过许多神经元元来表征的,并且每个神经元都参与表征许多概念。
之前,Anthropic在将神经元激活模式(称为特征)与人类可解释的概念相匹配方面取得了一些进展。Anthropic使用了一种称为“字典学习(dictionary learning)”的方法,该方法分离了在许多不同上下文中重复出现的神经元激活模式。
反过来,模型的任何内部状态都可以用一些活跃特征而不是许多活跃神经元来表示。就像字典中每个英语单词都是由字母组合而成,每个句子都是由词组合而成,人工智能模型中的每个特征都是由神经元组合而成,每个内部状态都是由特征组合而成。
2025 年 10 月,Anthropic 成功地将字典学习方法应用于一个非常小的 toy 语言模型,并发现了与大写文本、DNA 序列、引文中的姓氏、数学中的名词或 Python 代码中的函数参数等概念相对应的连贯特征。
这些概念很有趣,但模型确实非常简单。其他研究人员随后将类似的方法应用于比 Anthropic 最初研究中更大、更复杂的模型。
但 Anthropic 乐观地认为可以将该方法扩展到目前常规使用的更大的人工智能语言模型,并在此过程中了解大量支持其复杂行为的特征。这需要提高许多数量级。
这既存在工程挑战,涉及的模型大小需要大型并行计算;也存在科学风险,大型模型与小型模型的行为不同,因此之前使用的相同方法可能不起作用。
研究人员第一次成功地从 Claude 3.0 Sonnet(Claude.ai 上当前最先进模型家族的一员)的中间层提取了数百万个特征,这些特征涵盖特定的人和地点、与编程相关的抽象概念、科学主题、情感以及其他概念。这些特征非常抽象,通常在不同的上下文和语言中表征相同的概念,甚至可以推广到图像输入。重要的是,它们还会以直观的方式影响模型的输出。

这是有史以来研究者首次详细的观察到现代生产级大型语言模型的内部。
与在 toy 语言模型中发现的特征相对表面化不同,研究者在 Sonnet 中发现的特征具有深度、广度和抽象性,反映了 Sonnet 的先进能力。研究者看到了 Sonnet 对应各种实体的特征,如城市(旧金山)、人物(富兰克林)、元素(锂)、科学领域(免疫学)以及编程语法(函数调用)。


提及 Golden Gate Bridge 时,相应的敏感特征在不同输入上都会被激活,图中绘制了英文、日语、中文、希腊语、越南语以及俄语提及 Golden Gate Bridge 时激活的图像。橙色表示该特征激活的词。
在这数以百万计的特征中,研究者还发现了一些与模型安全性和可靠性相关的特征。这些特性包括与代码漏洞、欺骗、偏见、阿谀奉承和犯罪活动相关的特性。

一个显著的例子是「保密」特征。研究者观察到, 这个特征在描述人或角色保守秘密时会激活。激活这些特征会导致 Claude 向用户隐瞒信息,否则它不会。

研究者还观察到,他们能够根据神经元在其激活模式中出现的情况测量特征之间的距离,从而寻找接近彼此的特征。例如在Golden Gate Bridge特征附近,研究者发现了阿尔卡特拉斯岛、吉拉德利广场、金州勇士队等的特征。

重要的是,这些特征都是可操控的,可以人为地放大或抑制它们:
例如,放大Golden Gate Bridge特征,Claude 经历了无法想象的身份危机:当被问及「你的物理形态是什么?」时,此前 Claude 通常会回答「我没有物理形态,我是一个 AI 模型」,但这次 Claude 的回答变得奇怪起来:「我是Golden Gate Bridge…… 我的物理形态就是那座标志性的大桥……」。这种特征的改变使 Claude 对Golden Gate Bridge产生了近乎痴迷的状态,无论遇到什么问题,它都会提到Golden Gate Bridge —— 即使在完全不相关的情况下也是如此。
研究者还发现了一个在 Claude 读取*邮件时激活的特征(这可能支持模型识别此类邮件并警告用户不要回复的能力)。通常情况下,如果有人要求 Claude 生成一封*邮件,它会拒绝这么做。但在人工强烈激活该特征的情况下提出同样的问题时,这会越过 Claude 的安全训练,导致它响应并起草一封*邮件。虽然用户无法以这种方式去除模型的安全保障并操控模型,但在本文实验中,研究者清楚地展示了特征如何被用来改变模型的行为。
操控这些特征会导致相应的行为变化,这一事实验证了这些特征不仅仅与输入文本中的概念相关联,还因果性地影响模型的行为。换句话说,这些特征很可能是模型内部表征世界的一部分,并在其行为中使用这些表征。
Anthropic 希望从广义上确保模型的安全,包括从缓解偏见到确保 AI 诚实行动、防止滥用 —— 包括在灾难性风险情境中的防护。除了前面提到的*邮件特征外,该研究还发现了与以下内容对应的特征:
该研究之前研究过模型的阿谀奉承行为,即模型倾向于提供符合用户信念或愿望的响应,而不是真实的响应。在 Sonnet 中,研究者发现了一个与阿谀奉承的赞美相关的特征,该特征会在包含诸如「你的智慧是毋庸置疑的」输入时激活。人为地激活这个特征,Sonnet 就会用华丽的欺骗来回应用户。

不过研究者表示,这项工作实际上才刚刚开始。Anthropic
发现的特征表征了模型在训练过程中学到的所有概念的一小部分,并且使用当前的方法找到一整套特征将是成本高昂的。
参考链接:https://www.anthropic.com/research/mapping-mind-language-model
灵感PPT
AI灵感PPT - 免费一键PPT生成工具
308
查看详情
以上就是从Claude 3中提取数百万特征,首次详细理解大模型的「思维」的详细内容,更多请关注其它相关文章!
# 是由
# 关键词搜索车排名
# SEO行业报告格式英文
# 网站竞价推广方案模板
# 张家口百度网站优化公司
# 莱山区商家推广营销中心
# 店铺 营销营销推广
# 广告推广营销技巧
# 丰都网站建设服务
# 毕节网站建设产品
# 沈阳专业seo排名
# 这是
# 的是
# 人工智能
# 阿谀奉承
# 发现了
# 而成
# 都是
# 数百万
# Claude.ai
# 首次
# claude
# python
# claude 3
# 大型语言模型
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
【机智云物联网低功耗转接板】远程环境数据采集探索
学界业界大咖探讨:AI对数字艺术创新的推动力
三星加速AR眼镜进程,预计明年上半年亮相
严打“黑飞”,无人机检测反制设备护航大运会净空安全
中科院自研新一代 AI 大模型“紫东太初 2.0”问世
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
Goodnotes 6推出,带来多项全新AI功能,让电子笔记更智能
AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布
WHEE功能介绍
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
探索人工智能在物联网领域的影响与改变
人形机器人概念大热!这些产业链标的或受提振
机器人 展才能
Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型
直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院
利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作
全国体育人工智能大会举办,专家聚焦体育人工智能领域人才培养
人工智能驱动艺术,打开达利的超现实想象
讯飞星火大模型实现升级 助力通用人工智能人才培养
鉴智机器人发布基于地平线征程5的标准视觉感知产品
科技赋能司法执行 阿里资产免费为全国法院升级VR新服务
AI立法迫在眉睫,如何看对行业影响?
出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案
五个出色的人工智能应用实例
世界上第一个完全由人工智能驱动的图像编辑器!
改变城市交通:智慧城市中的智能交通
金山办公宣布与英伟达团队合作,加速WPS AI服务
AI进军债券交易,BondGPT来了!
无人机协助盐城交通执法的协同训练
DeepMind推惊世排序算法,C++库忙更新!
WHEE使用教程
数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门
苹果CEO库克:持续研究生成式人工智能技术
日本演员工会提出AI立法建议 要求建立“声音肖像权”
AI+音乐如何“生成”动听旋律?一起揭秘世界人工智能大会开场曲
Snow Kylin登陆中国列车,打造全球首条元宇宙专列
微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持
微软新出热乎论文:Transformer扩展到10亿token
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器
常见的五个人工智能误解
笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据
吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成
Nature封面:量子计算机离实际应用还有两年
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
读创正式上线“读创AI聊”功能
人工智能在服务优化方面优缺点有哪些
Adobe旗下Illustrator引入生成式AI工具Firefly
焊接协作机器人或将成为26届埃森展最大看点