400 128 6709

行业新闻

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

发布时间:2024-04-08点击次数:

如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2025年谷歌提出的激活函数,它结合了SWISH和GLU两者的特点。 SwiGLU的中文全称是“双向门控线性单元”,它将SWISH和GLU两种激活函数进行了优化和结合,以提高模型的非线性表达能力。SWISH是一种非常普遍的激活函数,它在大语言模型中得到广泛应用,而GLU则在自然语言处理任务中表现出色。 SwiGLU的优点在于它能够同时获取SWISH的平滑特性和GLU的门控特性,从而在模型的非线性表达上更加

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

我们一个一个来介绍:

Swish

Swish是一个非线性激活函数,定义如下:

Swish(x) = x*sigmoid(ßx)

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

其中,ß 为可学习参数。Swish 可以比ReLU激活函数更好,因为它给予了更平滑的转换,这可以带来更好的优化。

Gated Linear Unit

GLU(Gated Linear Unit)定义为两个线性变换的分量积,其中一个线性变换由sigmoid激活。

GLU(x) = sigmoid(W1x+b)⊗(Vx+c)

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

GLU模块可以有效地捕获序列中的远程依赖关系,同时避免了LSTM和GRU等其他门控机制相关的一些梯度消失问题。

SwiGLU

我们已经说过SwiGLU是两者的结合。它是一个GLU,但不是将sigmoid作为激活函数,而是使用ß=1的swish,因此我们最终得到以下公式:

SwiGLU(x) = Swish(W1x+b)⊗(Vx+c)

我们用SwiGLU函数构造一个前馈网络

FFNSwiGLU(x) = (Swish1(xW)⊗xV)W2

Pytorch的简单实现

如果上面的数学原理看着比较麻烦枯燥难懂,我们下面直接使用代码解释。

class SwiGLU(nn.Module): def __init__(self, w1, w2, w3) -> None:super().__init__()self.w1 = w1self.w2 = w2self.w3 = w3 def forward(self, x):x1 = F.linear(x, self.w1.weight)x2 = F.linear(x, self.w2.weight)hidden = F.silu(x1) * x2return F.linear(hidden, self.w3.weight)

我们代码使用的F.silu函数与ß=1时的swish相同的,所以就直接拿来使用了。

代码可以看到,我们的激活函数中也有3个权重是可以训练的,这就是来自于GLU公式里的参数。

SwiGLU的效果对比

SwiGLU与其他GLU变体进行比较,我们可以看到SwiGLU在两种预训练期间都表现得更好。

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

下游任务

为什么大型语言模型都在使用 SwiGLU 作为激活函数?

效果表现得最好,所以现在的llm,如LLAMA, OLMO和PALM都在其实现中采用SwiGLU。但是为什么SwiGLU比其他的好呢?

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

论文中只给了测试结果而且并没有说明原因,而是说:

We offer no explanation as to why these architectures seem to work; we  attribute their success, as all else, to divine benevolence.

作者说炼丹成功了。

但是现在已经是2025年了我们可以强行的解释一波:

1、Swish对于负值的响应相对较小克服了 ReLU 某些神经元上输出始终为零的缺点

2、GLU 的门控特性,这意味着它可以根据输入的情况决定哪些信息应该通过、哪些信息应该被过滤。这种机制可以使网络更有效地学习到有用的表示,有助于提高模型的泛化能力。在大语言模型中,这对于处理长序列、长距离依赖的文本特别有用。

3、SwiGLU 中的参数 W1,W2,W3,b1,b2,b3W1,W2,W3,b1,b2,b3 可以通过训练学习,使得模型可以根据不同任务和数据集动态调整这些参数,增强了模型的灵活性和适应性。

4、计算效率相比某些较复杂的激活函数(如 GELU)更高,同时仍能保持较好的性能。这对于大规模语言模型的训练和推理是很重要的考量因素。

选择 SwiGLU  作为大语言模型的激活函数,主要是因为它综合了非线性能力、门控特性、梯度稳定性和可学习参数等方面的优势。在处理语言模型中复杂的语义关系、长依赖问题、以及保持训练稳定性和计算效率方面,SwiGLU 表现出色,因此被广泛采用。

论文地址

https://www.php.cn/link/86e33d550dc162366a02003089ab9894

以上就是为什么大型语言模型都在使用 SwiGLU 作为激活函数?的详细内容,更多请关注其它相关文章!


# swiglu  # llama  # follow  # 门控  # 都在  # 开源  # 上海  # 中国科学院  # 大型语言模型  # 网站seo 技巧  # 建设银行网站优点  # seo中的精髓是什么  # 邵阳网站开发建设  # 遂宁做推广的网站便宜的  # 陕西网站建设工作方案  # 红书推广营销怎么做的呢  # 拖拽式网站建设工具  # 状元府营销推广方案  # 张家界全网整合营销推广  # 是一个  # 因为它  # 可以看到  # 腾讯  # 两种 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 脑虎科技:奔跑在“脑机接口”最前沿 跨界融合取得阶段性成果  OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  AI生成新闻网站数量激增,正在疯狂赚取广告收入  Intel酷睿Ultra发布会官宣!迈向全新的AI时代  物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络  人工智能即将进入Windows:企业准备好安全策略设置了吗?  科普:什么是AI大模型  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  家电行业观察:AI加持下,全屋智能将成为智能家电未来?  抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制  普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!  读创正式上线“读创AI聊”功能  马斯克“揭秘”人工智能真面目  美图设计室2.0什么时候上线  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  水路两栖艇、消防灭火机器人……这个展览“黑科技”抢眼  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  美图秀秀“AI 扩图”功能上线,可根据图像生成更大画幅  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  Meta发布音频AI模型,仅需2秒片段模拟真人语音  海柔创新携手SAP,以机器人技术助力全球客户升级数智化竞争力  Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色  站在社会的高度理解人工智能  微软Xbox称VR和AR还需要时间 先玩大的  眼球反射解锁3D世界,黑镜成真!马里兰华人新作炸翻科幻迷  商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛  基于信息论的校准技术,CML让多模态机器学习更可靠  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务  看似低调,实则稳健:字节在AI路上会遇到什么?  OpenAI首席执行官表态支持欧盟AI监管  看了天美对AI的布局,我感觉它想得是真明白  杀入生成式AI的亚马逊云科技,能否再次生成未来?  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  “直击”AI新世界,智能机器人再次“火出圈”了  工信部信通院发布《2025大模型和AIGC产业图谱》 360智脑覆盖全产业链  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  美图公司影像节或发布AI设计新品  苹果头显降临,AI虚拟人的救星还是流星?  报道称亚马逊正在测试AI生成产品评价摘要  云深处科技绝影 Lite3 与 X20 四足机器人亮相  人工智能颠覆软件测试四大方式  微软向美国政府提供GPT的大模型,安全性如何保证?  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  日新月异,脑机接口技术都有哪些新应用? 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司