400 128 6709

行业新闻

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

发布时间:2025-08-28点击次数:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

多模态新旗舰minicpm-v 4.5:8b 性能超越 72b,高刷视频理解又准又快

今天,我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型,成为行业首个具备“高刷”视频理解能力的多模态模型,看得准、看得快,看得长!高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA,且性能超过 Qwen2.5-VL 72B,堪称最强端侧多模态模型。

?MiniCPM-V 4.5 亮点一览

?首个「高刷视频理解」多模态模型,兼顾性能与效率:高刷视频理解同级 SOTA 且超过 Qwen2.5-VL 72B越级领先;同等视觉 token 开销下, MiniCPM-V 4.5 可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍;

? 最强多模态 SOTA 模型:图片理解、长视频理解、OCR、文档解析同级 SOTA,且超过 Qwen2.5-VL 72B 达到越级领先;

?‍?端侧友好:提供 SOTA 级多模态表现的同时,带来最佳的推理效率,显存占用、平均推理时间等领先优势显著;

?支持长思考、短思考可控混合推理,性能好、速度快。

➤模型链接

?Github:

https://github.com/OpenBMB/MiniCPM-o

?Hugging Face:

https://huggingface.co/openbmb/MiniCPM-V-4_5

?ModelScope:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

01

首个高刷视频理解

兼顾性能与效率

看得更清更准,才能减少视觉信息的误差,提升视觉理解与推理准确性。更高刷新率,是画面流畅度的关键。

此前,主流的多模态模型在处理视频理解任务中,因为平衡算力、功耗等因素,通常采取 1 fps 抽帧,即每秒只能截取 1 帧画面进行识别和理解。虽然一定程度上保证了模型推理效率,但也因此缺失了绝大部分视觉信息,降低了多模态大模型对动态世界「精细化」的理解。

MiniCPM-V 4.5 是行业首个具备高刷视频理解能力的多模态模型,通过将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩,在同等视觉 Token 量开销下的情况下,最大可接收 6 倍视频帧数量,达到 96 倍视觉压缩率,是同类模型的 12-24 倍。

MiniCPM-V 4.5 通过显著增加抽帧频次,从看「PPT」变成理解「动态画面」,瞬间捕捉,洞见细节!面对一闪而过的画面,MiniCPM-V 4.5 要比 Gemini-2.5-Pro、GPT-5、GPT-4o 等代表性云端模型看得更准、更细。

在 MotionBench、F*orBench 两项体现高刷视频理解能力的榜单中,MiniCPM-V 4.5 达到同尺寸 SOTA,且超过 Qwen2.5-VL 72B,实现越级领先水平。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

02

最强端侧多模态

图片、视频理解全 SOTA

以小博大,一直是面壁小钢炮 MiniCPM 的模型特色。这一次,MiniCPM-V 4.5 凭借 8B 参数,在图片理解、视频理解、复杂文档识别等多模态能力上再次刷新能力上限。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

AdMaker AI AdMaker AI

从0到爆款高转化AI广告生成器

AdMaker AI 65 查看详情 AdMaker AI

图片理解性能上,MiniCPM-V 4.5 在 OpenCompass 测评中,领先GPT-4o、GPT-4.1、Gemini-2.0-Pro 等众多闭源模型 ,甚至超过 Qwen2.5-VL 72B,实现越级领先。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

视频理解性能上,MiniCPM-V 4.5 在 LVBench、MLVU、Video-MME、LongVideoBench 等榜单中,均达到同级最佳水平。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

在复杂文档识别任务中,MiniCPM-V 4.5 在 OmniDocBench 榜单的 OverallEdit、TextEdit、TableEdit 三项指标上,均取得了通用多模态模型同级别的 SOTA 表现。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

此外,MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡,常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。

03

极致推理性价比

端侧应用优选

在端侧 AI 应用持续升温的当下,模型能力再强,如果无法在端侧设备上稳定、流畅运行,一切都是空谈。

面壁小钢炮 MiniCPM 不断提升模型的「能力密度」,也一直致力于追求大模型的极致「能效比」,通过更低的显存占用、更快的响应速度,确保在提供 SOTA 级多模态表现的同时,也实现最佳的推理效率和最低的推理开销。

在视频理解榜单 VideoMME、以及单图OpenCompass测试中,MiniCPM-V 4.5达到同级SOTA水平,显存占用、平均推理时间等方面领先优势显著。

其中,在覆盖短、中、长三种类型的视频理解评测集 Video-MME 上,MiniCPM-V 4.5 采用 3 帧打包策略进行推理,时间开销(未计算模型抽帧时间)仅为同级模型的 1/10 。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

04

技术解析

MiniCPM-V 4.5 作为多模态模型的新旗舰,之所以具备「高刷」视频理解能力、并取得图片理解、OCR、长视频理解等 SOTA ,主要得益于在模型结构、训练范式等领域的创新。

3D-Resampler 实现高密度视频压缩

当前,制约多模态模型视频理解能力的最核心挑战是性能和效率的 Trade-off,即模型需要看更多视频帧,才能获取更精细的信息以提高理解上限;而模型融入太多视频帧,又会造成显存、推理速度等开销爆炸。由于局部片段的不同视频帧之间存在信息冗余性,即大部分视觉信息不变,仅有少部分信息发生变化,存在很大的信息压缩空间。MiniCPM-V 4.5 将模型结构从 2D-Resampler 拓展为 3D-Resampler,进行三维视频片段的高密度压缩。具体来说,视频会按照每N个视频帧一组分组(分组尺寸最大为 6 ),3D-Resampler 会对每个视频组压缩编码,得到 64 个视觉token(与编码单图视觉token数量相同),最终在推理开销不变的情况下,最大 10 fps 抽帧,实现了模型高刷视频理解能力。得益于 Resampler 机制的灵活性,我们可以在推理阶段灵活调整视频分组尺寸,同时支持单图、多图、视频的统一编码(即单图编码视为 3D 视频编码的 2D 特例),方便知识和能力迁移。

面向多页文档图片的统一OCR和知识推理学习

「对文字的识别解析」和「从文档中学习知识」是多模态大模型的两个重要课题,但这两个方向的学习范式割裂,并且分别受到图像样例难度和解析准确性的限制。提升 OCR 能力往往需要补充更丰富且难的数据,数据增广(例如对图像中文字加高斯噪音)往往会被采用,以提升数据的难度和多样性,但是过大的增广会使得文字不可读,反而会导致模型幻觉。在文档知识学习方面,大部分工作会将文档解析成为图文交替数据进行学习,严重受到文解析工具错误的影响。

MiniCPM-V 4.5 连续控制图像中的「文字信息可见度」,使得多模态模型在 OCR 和知识学习两种模式之间无缝切换,首次实现了OCR 和知识学习两种学习范式的有效融合,且不会受到过难增广和解析错误的影响。具体来说,我们首先提取出文档中的文字框(这通常是非常准确的,大部分解析错误来源于排版、阅读顺序、低信息量图文噪音错误),然后对文字框内区域进行不同程度的噪音增广。当施加噪音较小,文字处于尚可辨别范围内时,模型会 OCR 学习识别文字;当施加噪音较大,文字无法辨认时,模型会自动进入知识学习,根据文档的多模态上下文还原文字;当噪音介于两者之间,模型会进行混合能力的学习。基于上述技术,MiniCPM-V 4.5 低成本实现了领先的 OCR 能力和多模态知识能力。

通用域混合推理强化学习

深度思考推理能力极大拓展了多模态大模型的推理能力边界,但在常见问题场景中,也往往伴随过高的推理延迟。MiniCPM-V 4.5 同时支持常规模式和深度思考模式,实现了性能与响应速度的有效平衡:常规模式在绝大部分场景下提供出色的多模态理解能力,深度思考模式则专注于应对复杂与复合型推理任务。为了让模型在两种模式下都具备出色性能,MiniCPM-V 4.5 提出了混合推理的强化学习训练方案,在强化学习过程中同时激活常规和深度思考模式,实现在相同训练时长下显著更强的常规模式性能和相似的深度思考模式性能。借助 RLPR 技术,MiniCPM-V 4.5 进一步从通用域多模态推理数据上获得高质量的奖励信号,以提升广泛通用领域的推理能力。最终,通过轻量化的 RLAIF-V 训练阶段,模型在保持推理能力的同时显著降低了幻觉。

多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快

以上就是多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快的详细内容,更多请关注其它相关文章!


# ppt  # 太原网站建设托管  # 网站建设与设计试题  # 高效的网站建设  # 珠海小红书种草推广营销策划  # 赤峰抖音关键词搜索排名企业  # 一键  # 高密度  # 榜单  # 两种  # 实现了  # 首个  # 显存  # 文档  # git  # 工具  # ai  # gpt-5  # gemini  # hugging face  # openbmb  # qwen  # modelsc  # 多模  # 看得  # seo团队接单  # 吕梁互联网网站推广咨询  # 长沙小红书推广营销平台  # 网站推广公司广州  # 和平区企业网站建设方案 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中  Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”  XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏  人工智能驱动智能建筑会是未来趋势吗?  人工智能正在弥合认知和表达之间的鸿沟  如何用AI开创智慧能源新时代?固德威正让能源“通人性”!  人工智能在重症监护室的未来  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  机器人 展才能  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  斑马推出全新升级版思维机:以人工智能为核心的交互式学习体验  导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发  马斯克“揭秘”人工智能真面目  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  金山办公:AI是重要的产品战略之一  WHEE上线时间介绍  QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  AI与5G的强强联合:唤醒数字时代的无尽潜能  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持  探索人工智能和物联网的动态融合  Snap宣布研发出新技术 可大幅提升AI生成图像速度  人工智能助力林草行业高质量发展  PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图  如何成功实施人工智能?  首个算网生态体!中国移动元宇宙产业联盟正式成立  2025年贵州省青少年机器人竞赛在安举行  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  如何用户外电源给无人机实现持久续航  携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐  美图秀秀发布7款AI产品:支持用户创作、商业创作  大厂出品!这个AI网站太顶了,所有功能免费用  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析  ​《流浪地球2》里机器人公司的创始人:未来10年,机器人的崛起!  麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管  清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  报道称亚马逊正在测试AI生成产品评价摘要  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  AI赋能艺术 超现实达利奇幻之旅在沪开启  科技赋能司法执行 阿里资产免费为全国法院升级VR新服务  AI会帮我们把活干完吗?  “一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报  500元一张的AI艺术二维码制作,详细教程来了!  当孔子遇见AI|尼山的“数字” 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司