400 128 6709

行业新闻

EdgeViTs的一些改进以及完全体复现

发布时间:2025-07-31点击次数:
本文回顾EdgeViTs复现,介绍BN、LN、GN区别,详述复现详情:将原始结构的LN层换为GN层,把FFN层双层全连接层改为两层卷积层,复现了不同计算复杂度下的结构,还包括模型组成及实验,用Flowers数据集训练并可视化过程。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

edgevits的一些改进以及完全体复现 -

EdgeViTs的一些改进以及完全体复现

1 前言

1.1 EdgeViTs复现回顾

  在上一篇文章中,带大家对EdgeViTs中的主要模块LGL进行了复现,并且在Cifar10数据集上进行了实验。在本篇文章中对EdgeViTs的完全体进行了复现,并且在原作的基础上,做出来一些改进。

1.2 BN LN GN的区别

  作为神经网络中的重要组成部分,批处理归一化(BN)层有各种形态:Batch Normalization (BN)、Layer Normalization (LN)、Instance Normalization (IN)、Group Normalization (GN)。从公式看它们都差不多:即减去均值,除以标准差,再施以线性映射。

EdgeViTs的一些改进以及完全体复现 -

这些归一化算法的主要区别在于操作的 feature map 维度不同。BN对batch size有依赖,当batch size较大时,有不错的效果。而LN、IN、GN能够摆脱这种依赖,其中GN效果最好。

1.3 Batch Normalization (BN)

  具体来说,就是把第1个样本的第1个通道,加上第2个样本第1个通道 ...... 加上第 N 个样本第1个通道,求平均,得到通道 1 的均值(注意是除以 N×H×W 而不是单纯除以 N,最后得到的是一个代表这个 batch 第1个通道平均值的数字,而不是一个 H×W 的矩阵)。求通道 1 的方差也是同理。对所有通道都施加一遍这个操作,就得到了所有通道的均值和方差。

EdgeViTs的一些改进以及完全体复现 -

1.4 Layer Normalization(LN)

  Layer Normalization (LN) 的一个优势是不需要批训练,在单条数据内部就能归一化。LN 对每个样本的 C、H、W 维度上的数据求均值和标准差,保留 N 维度。其均值和标准差公式为:

EdgeViTs的一些改进以及完全体复现 -

1.5 Group Normalization (GN)

  GN 计算均值和标准差时,把每一个样本 feature map 的 channel 分成 G 组,每组将有 C/G 个 channel,然后将这些 channel 中的元素求均值和标准差。各组 channel 用其对应的归一化参数独立地归一化。

php商城系统 php商城系统

PHP商城系统是国内功能优秀的网上商城系统,同时也是一个商业的PHP开发框架,有多套免费模版,强大的后台管理功能,专业的网上商城系统解决方案,快速建设网上购物商城、数码商城、手机商城、办公用品商城等网站。 php商城系统v3.0 rc6升级 1、主要修复用户使用中出现的js未加载完报错问题,后台整改、以及后台栏目的全新部署、更利于用户体验。 2、扩展出,更多系统内部的功能,以便用户能够迅速找到需

php商城系统 0 查看详情 php商城系统

EdgeViTs的一些改进以及完全体复现 -

BN LN GN的区别主要参考BN、LN、IN、GN的简介更详细的介绍大家可以点击该链接进行查阅。

2 复现详情

  对于绝大部分的transformer来说,其归一化层都选择LN,LN最初使用在自然语言中,在transformer应用在了图像之后,大家对其未做更改,并且该LN层在实际的应用中效果不错,所以大家在实际的使用中对其未做更改,在本项目中,对原始的结构中的LN层进行了替换,使用GN层作为归一化层,并且将其FFN层中的双层全连接层更改为两层卷积层。具体如下所示:

EdgeViTs的一些改进以及完全体复现 -

  论文作者在不同的计算复杂度(具体为0.5G、1G和2G)下构建了一系列具有本文所提出的LGL bottleneck的EdgeViTs。下图总结了这些配置。在本项目中,对下面所列的结构均进行了复现。

EdgeViTs的一些改进以及完全体复现 -

  继之前的分层ViT之后,EdgeViTs由四个具有空间分辨率的阶段组成(即token序列长度),自注意力模块逐渐减少,取而代之的是我们的LGL bottleneck。对于每个阶段的下采样,作者使用了一个conv层,核大小为2×2,步长为2,除了第一阶段,作者按×4下采样输入特征,并使用4×4和步长为4的核。作者采用了条件位置编码,这已被证明优于绝对位置编码。这可以使用2D depth-wise卷积加上残差连接来实现。在提出的模型中,作者使用具有零填充的3×3 depth-wise卷积,在局部聚合及全局稀疏自注意力之前。FFN由两个线性层组成,其中GeLU非线性激活函数位于两者之间。模型的局部聚合操作可以通过point-wise和depth-wise卷积堆叠实现。全局稀疏注意力由四个阶段采样率为(4,2,2,1)的空间均匀采样器和标准MHSA组成。局部传播通过深度可分离转置卷积实现,其kernel大小和步长等于全局稀疏注意力中使用的采样率。

3 模型实验

In [ ]
from edgevit import EdgeViT_XXS, EdgeViT_XS, EdgeViT_Simport paddle

model = EdgeViT_XXS()

paddle.summary(model,(1,3,224,224))
In [ ]
import paddlefrom paddle.metric import Accuracyfrom paddle.vision.datasets import Flowersfrom paddle.vision.transforms import Compose, Normalize, Resize, Transpose, ToTensor

callback = paddle.callbacks.VisualDL(log_dir='visualdl_log_dir')

normalize = Normalize(mean=[0.5, 0.5, 0.5],
                    std=[0.5, 0.5, 0.5],
                    data_format='HWC')
transform = Compose([ToTensor(), Normalize(), Resize(size=(224,224))])

cifar10_train = paddle.vision.datasets.Flowers(mode='train',
                                               transform=transform)
cifar10_test = paddle.vision.datasets.Flowers(mode='test',
                                              transform=transform)# 构建训练集数据加载器train_loader = paddle.io.DataLoader(cifar10_train, batch_size=128, shuffle=True)# 构建测试集数据加载器test_loader = paddle.io.DataLoader(cifar10_test, batch_size=128, shuffle=True)

model = paddle.Model(EdgeViT_XXS())
optim = paddle.optimizer.Adam(learning_rate=0.001, parameters=model.parameters())

model.prepare(
    optim,
    paddle.nn.CrossEntropyLoss(),
    Accuracy()
    )

model.fit(train_data=train_loader,
        eval_data=test_loader,
        epochs=20,
        callbacks=callback,
        verbose=1
        )

3.1 可视化训练过程

EdgeViTs的一些改进以及完全体复现 -

以上就是EdgeViTs的一些改进以及完全体复现的详细内容,更多请关注其它相关文章!


# 来袭  # 江门如何给网站做seo  # 兰州市抖音关键词排名哪家专业  # seo面试说什么  # 百度官网seo  # 平顶山seo服务  # 江苏免费推广网站  # 数字化营销推广公司  # 东北糖酒会的关键词排名  # 双语网站建设的意义  # 南京如何做seo  # ai  # 营收  # 两层  # 加载  # 对其  # 的是  # 标准差  # 进行了  # 均值  # 中文网  # 区别 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: AI生成新闻网站数量激增,正在疯狂赚取广告收入  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  两型无人机完成交付!国家级机动观测业务正式启动  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  五个出色的人工智能应用实例  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  人工智能时代的科幻译者怎么办?“做好翻译工作的高端10%”|文化观察  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的  AI工具助力公司实施每周4.5天工作制,带来巨大效益  马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术  QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手  阿里达摩院向公众免费开放100项AI专利许可  人工智能进入绿植界,智能庭院市场初具规模  2025世界人工智能大会(上海)开幕式纪要  Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!  机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  助力人工智能产业高质量发展 龙岗区算法训练基地正式启用  中兴通讯无人机高空基站助力北京门头沟受灾乡镇保障应急通信  亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会  第二届光合组织AI解决方案大赛赛果揭晓  小米又拿下国际比赛第一:AI翻译立功  2025年深圳举办的SUSECON 创新峰会开始接受报名  AI技术改变*,新骗局来袭,*成功率接近100%  AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  吉林首例!机器人辅助下搭桥手术成功实施  史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万  美妆行业在AI时代蓬勃发展  AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场  静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!  网友自制 AI 版《流浪地球 3》预告片,登上 CCTV6  边喷火边跳踢踏舞,机器狗最新技能爆火全网!网友直呼真·热狗  人工智能助力林草行业高质量发展  编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员  美图设计室2.0新增哪些功能  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  旷视入选北京市通用人工智能产业创新伙伴计划  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验  加速电网转型升级推进新型电力系统建设  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司