发布时间:2025-07-28
点击次数: 本文围绕智能导盲机器狗比赛展开,介绍赛事对模型大小和检测速度的要求,分享三种模型选择思路:小模型加法、大模型减法及先减重再提速。还分析了数据集分布,细讲第三种思路中Backbone和Neck的处理,如用CSP结构减重、SPPF替代SPP提速等。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一只导盲犬能够给盲人带来许多生活上的便利,但是导盲犬的培训周期长,费用高昂,因此,不是所有盲人能够拥有导盲犬,如果有机器狗代替导盲犬,将极大的造福盲人,此项比赛为智能导盲机器狗比赛,通过比赛来考评智能导盲机器狗的智能感知能力及综合运动性能,要求智能四足仿生机器人沿布置好的城市人行道场景走完全程并完成指定任务。
其实说起来高大上,当我们一句看到具体的任务的时候就会发现,其实就是一个非常简单的目标检测任务在出塞中,赛事组提供五种不同的目标让你去进行识别,但是为了服务于现实场景, 其在模型大小 以及检测速度等方面均提出了要求模型大小限制在200兆以内检测速度要求不低于20FPS。
那么这里,当时我就想到了三个思路,
在我的初中和高中的生物课堂中,生物老师往往告诉我一个事情就是,一个好的实验材料往往能够在实验中起到关键性作用。无数足矣载入史册的实验中,首先是需要一个好的实验材料。 那么在机器学习以及深度学习中,好的数据及往往是一个数据分布均匀,种类繁多,能够反映真实情况的数据。 那么首先就先让我们来看一看,到忙的这个数据是否是一个比较好的数据集。
In [ ]## 解压文件夹!tar -zxvf data/data137625/WisdomGuide.tar.gz## 安装所需环境!pip install pycocotoolsIn [ ]
from pycocotools.coco import COCO# 查看train数据分布annFile='WisdomGuide/annotations/instance_train.json'coco=COCO(annFile)
training_data= {}
cats = coco.loadCats(coco.getCatIds())
cat_nms=[cat['name'] for cat in cats]
print('-'*10,"training data",'-'*10)for cat_name in cat_nms:
catId = coco.getCatIds(catNms=[cat_name])
imgId = coco.getImgIds(catIds=catId)
annId = coco.getAnnIds(imgIds=imgId, catIds=catId, iscrowd=None)
training_data[cat_name] = len(imgId), len(annId) print("{:<15} {:<6d} {:<10d}".format(cat_name, len(imgId), len(annId)))print(training_data)# 查看val数据分布annFile='WisdomGuide/annotations/instance_val.json'coco=COCO(annFile)
cats = coco.loadCats(coco.getCatIds())
val_data = {}
cat_nms=[cat['name'] for cat in cats]
print('-'*10,"valuation data",'-'*10)for cat_name in cat_nms:
catId = coco.getCatIds(catNms=[cat_name])
imgId = coco.getImgIds(catIds=catId)
annId = coco.getAnnIds(imgIds=imgId, catIds=catId, iscrowd=None)
val_data[cat_name] = (len(imgId), len(annId))
print("{:<15} {:<6d} {:<10d}".format(cat_name, len(imgId), len(annId)))
你是否觉得不够直观那么接下来我们用饼状图的形式来进行演示。
In [ ]import matplotlib.pyplot as plt
name = [x for x in training_data.keys()]
train_imgid = [training_data[name[x]][0] for x in range(len(name))]
train_annid = [training_data[name[x]][1] for x in range(len(name))]
val_imgid = [val_data[name[x]][0] for x in range(len(name))]
val_annid = [val_data[name[x]][1] for x in range(len(name))]
plt.figure(figsize=(6,6))#将画布设定为正方形,则绘制的饼图是正圆values = train_imgid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('train_imgid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
plt.figure(figsize=(6,6))
values = train_annid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('train_annid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
plt.figure(figsize=(6,6))
values = val_imgid
label = name
explode = [0.01,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('val_imgid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
plt.figure(figsize=(6,6))
values = val_annid
label = name
explode = [0.0
1,0.01,0.01,0.01,0.01]
patches,l_text,p_text = plt.pie(values,explode=explode,labels=label,autopct='%1.2f%%')
plt.suptitle('val_annid',fontsize=16,y=0.93)
plt.legend(bbox_to_anchor=(-0.04, 1),borderaxespad=0,frameon=False)
plt.show()
<Figure size 432x432 with 1 Axes>
<Figure size 432x432 with 1 Axes>
<Figure size 432x432 with 1 Axes>
<Figure size 432x432 with 1 Axes>
通过饼状图,我们可以发现这是一个不均匀分布的数据集
数据集总共分为五类:盲道、红绿灯(红灯状态)、红绿灯(绿灯状态)、红绿灯(不亮灯状态)、障碍物
其实是有三个大分类——盲道,红绿灯以及障碍物, 其中红绿灯又能被细分为三类分别为红灯,绿灯以及不亮灯。所幸他所需要识别的物体,其实算是比较少的。如果像是这种数据的话,其实还有另外一种说法是密度分类或者叫做多类别分类识别, 比如你首先要识别出来,他是哪种动物像是猫或狗或蛇,然后你又要去细分它的种类,比如比格拉布拉多dou牛,或是暹罗,埃及,、加菲。。当然,那两种识别又是一个更高的领域。在这里,我们并不进行描述。
个人觉得这个数据其实已经是非常不错的,首先他是一个扫盲说自己吗,所以说他大部分的时间肯定是需要去看盲道, 所以他的忙到我的数据只能够占55%左右,剩下的红绿灯和障碍物大概五五分成, 就是有一点我不太明白,为什么没有灯的占了其中的一半,有灯的占了另一半呢,难道现在大街上的红绿灯大多数都是没有灯吗?
简小派
简小派是一款AI原生求职工具,通过简历优化、岗位匹配、项目生成、模拟面试与智能投递,全链路提升求职成功率,帮助普通人更快拿到更好的 offer。
123
查看详情
在考虑是否对Backbone进行动刀前你应该先考虑清楚你是否有足够的机器或者算力,因为你一旦选择对Backbone动刀就意味着你将失去一个预训练模型,你必须要自己再在Imagenet上去训练一个不错的预训练模型,请注意一定是要不错的预训练模型,因为如果你的预训练模型较差那么你的网络很有可能无法收敛更不要提所谓的达到一个不错的精度了。
如果是像是PPYOLOv2一样没有使用过CSP结构的网络可以直接将CSP结构拿过来使用,CSP结构能够降低网络参数量,在减重的同时还能达到提速的效果,至于精度,论文中说的是能提升精度的哈。要是不能提升我这里也不负责呀,一切情况以实物为准
如果是PPYOLOE就比较尴尬了,因为在PPYOLOE中虽然使用了CSP结构,但是很尴尬的是PPYOLOE也和咱们的思路一样就是先减重然后再增重,结果就是虽然使用了CSP结构但是模型大小反而也没怎么减少但是精度提高了,那么这就比较尴尬了,那么这个时候我们应该怎么找一个比PPYOLOE中 CSPRegResNet精度还高速度更快或者最起码差不多,然后参数还要少的Backbone呢? 所以这里其实就是一个比较尴尬的点了。如果看过我那个给大核卷积提速项目的同学可能知道我是使用CSPConvNeXt平替,但是尴尬的是我的CSPConvNeXt在Iamgenet中也只有78.5,不说和ConvNeXt的82.1相差甚远甚至连CSPRegResNet的79.5也有一个点的差距,然后CSPCOnvNeXt网络还有一个问题就是难以训练,具体来说可以去看一下我的那个给大核卷积提速的项目, 简单一句话来说,就是我并没有找到一个合适的训练策略,去激发CSPResNet的所有潜能,但是一方面我自己没有机器然后ai studio 4卡训练一直报错提了issue也没有解决。因此这方面我也暂时搁置了。
对neck动刀就不会像是Backbone那么难受了你可以随意去改变那么第一个我想到的就是SPPF去替代SPP
简单介绍一下SPPF SPPF就是使用三个5x5的maxpool层代替 原本的SPP结构,SPPF结构与SPP结构结果相同但是所用时间大大减少
下面我们先做一个小实验,来对比SPPF与SPP的所用时间
In [35]import paddle
import paddle.nn as nnimport time
paddle.device.set_device("cpu")class SPP(nn.Layer):
def __init__(self):
super().__init__()
self.maxpool1 = nn.MaxPool2D(5,1,padding=2)
self.maxpool2 = nn.MaxPool2D(9,1,padding=4)
self.maxpool3 = nn.MaxPool2D(13,1,padding=6) def forward(self, x):
p = x
o1 = self.maxpool1(x)
o2 = self.maxpool2(x)
o3 = self.maxpool3(x) return paddle.concat([x,o1,o2,o3],axis=1)class SPPF(nn.Layer):
def __init__(self):
super().__init__()
self.maxpool = nn.MaxPool2D(5, 1, padding=2) def forward(self, x):
o1 = self.maxpool(x)
o2 = self.maxpool(o1)
o3 = self.maxpool(o2) return paddle.concat([x, o1, o2, o3], axis=1)def main():
input_tensor = paddle.rand((8, 32, 16, 16))
spp = SPP()
sppf = SPPF()
output1 = spp(input_tensor)
output2 = sppf(input_tensor) # print(paddle.equal(output1, output2))
t_start = time.time() for _ in range(100):
spp(input_tensor) print(f"spp time: {time.time() - t_start}")
t_start = time.time() for _ in range(100):
sppf(input_tensor) print(f"sppf time: {time.time() - t_start}")if __name__ == '__main__':
main()
spp time: 1.2195651531219482 sppf time: 0.43102502822875977
可以看到SPPF所用时间几乎是SPP结构的三分之一,那么我们就可以将一个SPP结构平替称为三个SPPF结构,相当于用一个SPP结构的时间,达到了使用三个SPP才能达到的效果。
以上就是导盲赛道思路分享的详细内容,更多请关注其它相关文章!
# 情况下
# 开封专业seo优化推荐
# 驻马店营销推广如何精准获客
# 网页怎么做网站推广
# 沈阳网站设计优化
# 江西seo工具平台
# 外链seo发布
# 河南seo入门公司排名
# 高效网站建设推广工作总结
# 漳浦关键词排名推广
# 唯品会的网站推广
# 就可以
# 导盲犬
# ai
# 是一个
# 找一个
# 然后再
# 去找
# 你可以
# 这个时候
# 的是
# coco
# fig
# udio
# igs
# 为什么
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景
争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?
先进技术在防止全球数据丢失方面的作用
深剖Apple Vision Pro中暗藏的“AI”
建立元宇宙产业联盟:移动、咪咕、华为、小米等加入
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资
轻量级的深度学习框架Tinygrad
创新科学家成功研发FAST激光靶标维护机器人
AI大模型,将为智慧城市带来哪些新变化?
农业产业升级:AI驱动的“崃·见田”开启农田未来展望
马斯克称人类是半机器人,记忆外包给了电脑
J*a与人工智能结合:构建智能云服务
日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
华为HarmonyOS 4将集|成人|工智能大型模型
张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型
美图影像节演讲实录:191次提及AI,发布7款影像生产力工具
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
华为昇腾AI原生支持30多种基础大模型,包括GPT
“思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化
多家欧洲企业签署公开信,批评欧盟 AI 法案草案限制产业发展
人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
Gartner发布中国企业人工智能趋势浪潮3.0
鸿蒙智能座舱的AI大模型革新,引领智能座舱领域的变革吗?
五项人工智能尚未能够实现的任务
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会
陈根:AI工具为游戏软件实时3D内容助力
OpenAI 向所有付费 API 用户开放 GPT-4
智能技术提高现代商业运营的7七种方式
参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价
借助ChatGPT快速上手ElasticSearch dsl
编程版GPT狂飙30星,AutoGPT危险了!
智能手机应用中的人工智能的重要性
AI创作广告文案等同2.47年工作经验,且消费者无法区分|AI营销前沿
谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广
OpenAI大神Karpathy最新分享:为什么OpenAI内部对AI Agents最感兴趣
中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式
GPT-4是如何工作的?哈佛教授亲自讲授
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
旷视入选北京市通用人工智能产业创新伙伴计划
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利
小米又拿下国际比赛第一:AI翻译立功
谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型
当TS遇上AI,会发生什么?
AI智能室内效果图设计软件效果,确实惊到我了!