400 128 6709

行业新闻

旷视开源多模态大模型,支持文档级OCR,覆盖中英文,是否标志着OCR的终结?

发布时间:2024-01-05点击次数:

想将一份文档图片转换成markdown格式?

以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——

这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

无论是中英文的大段文字:

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

还包含了公式的文档图片

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

又或是手机页面截图:

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

甚至可以将图片中的表格转换成latex格式:

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

当然,作为一个多模大型模型,保持通用能力是必不可少的

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

Vary表现出了很大的潜力和极高的上限,OCR可以不再需要冗长的pipline,直接端到端输出,且可以按用户的prompt输出不同的格式如latex 、word 、markdown。

通过强大的语言先验,这种架构可以避免OCR中的易错字,如“杠杆”和“杜杆”等。对于模糊文档,借助语言先验的帮助,也有望实现更强的OCR效果

引发了不少网友的关注的项目一经推出,立即引起了广泛讨论。其中一位网友在看到后直呼“杀爆了!”

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

这样的效果是如何实现的呢?

受大模型启发打造

目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实,在400M图像文本对训练的CLIP有很强的视觉文本对齐能力,可以覆盖多数日常任务下的图像编码。

但是对于密集和细粒度感知任务,比如文档级别的OCR、Chart理解,特别是在非英文场景,CLIP表现出了明显的编码低效和out-of-vocabulary问题。

纯NLP大模型(如LLaMA)从英文过渡到中文(对大模型来说是“外语”)时,因为原始词表编码中文效率低,必须要扩大text词表才能实现较好的效果。

TTSMaker TTSMaker

TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。

TTSMaker 2275 查看详情 TTSMaker

研究团队从中得到了启发,正是因为这一特点

现在基于CLIP视觉词表的多模态大模型,面临着同样的问题,遇到“foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片token化。

Vary是为解决这个问题而提供的一种解决方案,它可以在不重新建立原有词表的情况下,高效地扩充视觉词表

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

不同于现有方法直接用现成的CLIP词表,Vary分两个阶段:

首先,我们将在第一阶段使用一个小型的仅解码器网络,以自回归的方式生成一个强大的新视觉词表

接下来,在第二阶段将新词表和CLIP词表进行融合,以便高效地训练LVLM并赋予其新的特性

以下是Vary的训练方法和模型结构图示:

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!图片

通过在公开数据集以及渲染生成的文档图表等数据上训练,Vary极大增强了细粒度的视觉感知能力。

在保持vanilla多模态能力的同时,激发出了端到端的中英文图片、公式截图和图表理解能力。

另外,研究团队注意到原本可能需要几千tokens 的页面内容,通过文档图片输入,信息被Vary压缩在了256个图像tokens中,这也为进一步的页面分析和总结提供了更多的想象空间。

目前,Vary的代码和模型均已开源,还给出了供大家试玩的网页demo。

感兴趣的小伙伴可以去试试了~

以上就是旷视开源多模态大模型,支持文档级OCR,覆盖中英文,是否标志着OCR的终结?的详细内容,更多请关注其它相关文章!


# 模型  # 做网站优化哪家好  # 转换成  # 英文  # 端到  # 腾讯  # 这一  # 本田  # 出了  # 多模  # 文档  # 开源  # llama  # ocr  # 页面  # 南关短视频营销推广平台  # seo的商业链  # 涪陵seo营销  # 金华抖音付费营销推广招聘  # 不断改进网站建设  # 消毒液营销推广方案  # 耳环SEO优化方案  # 西宁网站seo优化网站  # 网页seo广告 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 机智云AI离线语音识别模组,让家电变得更加智能便捷  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程  腾讯TRS之元学习与跨域推荐的工业实战  WHEE功能介绍  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  学而思推出AI第一课:基于自研大模型的AIGC课程  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  消息称字节机器人团队已有约50人,计划年底扩充到上百人  如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略  高质量数据推动AI场景化应用快速发展及落地  三星加速AR眼镜进程,预计明年上半年亮相  陈根:AI工具为游戏软件实时3D内容助力  苹果2万5的AR遭遇砍单95%:不及预期  午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|  中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  VMS的应用:提升多品牌设备管理效能  世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感  2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  日入400万,第一批AI骗子已上岗  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能  从谷歌到亚马逊,科技巨头们的AI痴迷  真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验  苹果公司迅速拓展AR/VR团队,Vision Pro发布后7月份增设近100份工作机会  Zoom远程会议应用:AI培训需经用户授权  创新全场景清洁方案!海尔商用机器人首发上市  2025年深圳举办的SUSECON 创新峰会开始接受报名  比尔盖茨:AI确实存在风险,但可控  国内通用人形机器人将发布、产业加速突破  【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备  机构:边缘AI或是当前预期差最大的AI方向  AI室内设计软件流行,室内设计行业如何应对效率变革  浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库  工业机器人及非标自动化设备集成服务提供商  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  探索人工智能在物联网领域的影响与改变  华为发布两款AI存储新品  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司