发布时间:2024-01-05
点击次数: 想将一份文档图片转换成markdown格式?
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——
这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
无论是中英文的大段文字:
图片

还包含了公式的文档图片
图片
又或是手机页面截图:
图片
甚至可以将图片中的表格转换成latex格式:
图片
当然,作为一个多模大型模型,保持通用能力是必不可少的
图片
Vary表现出了很大的潜力和极高的上限,OCR可以不再需要冗长的pipline,直接端到端输出,且可以按用户的prompt输出不同的格式如latex 、word 、markdown。
通过强大的语言先验,这种架构可以避免OCR中的易错字,如“杠杆”和“杜杆”等。对于模糊文档,借助语言先验的帮助,也有望实现更强的OCR效果
引发了不少网友的关注的项目一经推出,立即引起了广泛讨论。其中一位网友在看到后直呼“杀爆了!”
图片
这样的效果是如何实现的呢?
目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实,在400M图像文本对训练的CLIP有很强的视觉文本对齐能力,可以覆盖多数日常任务下的图像编码。
但是对于密集和细粒度感知任务,比如文档级别的OCR、Chart理解,特别是在非英文场景,CLIP表现出了明显的编码低效和out-of-vocabulary问题。
纯NLP大模型(如LLaMA)从英文过渡到中文(对大模型来说是“外语”)时,因为原始词表编码中文效率低,必须要扩大text词表才能实现较好的效果。
TTSMaker
TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。
2275
查看详情
研究团队从中得到了启发,正是因为这一特点
现在基于CLIP视觉词表的多模态大模型,面临着同样的问题,遇到“foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片token化。
Vary是为解决这个问题而提供的一种解决方案,它可以在不重新建立原有词表的情况下,高效地扩充视觉词表
图片
不同于现有方法直接用现成的CLIP词表,Vary分两个阶段:
首先,我们将在第一阶段使用一个小型的仅解码器网络,以自回归的方式生成一个强大的新视觉词表
接下来,在第二阶段将新词表和CLIP词表进行融合,以便高效地训练LVLM并赋予其新的特性
以下是Vary的训练方法和模型结构图示:
图片
通过在公开数据集以及渲染生成的文档图表等数据上训练,Vary极大增强了细粒度的视觉感知能力。
在保持vanilla多模态能力的同时,激发出了端到端的中英文图片、公式截图和图表理解能力。
另外,研究团队注意到原本可能需要几千tokens 的页面内容,通过文档图片输入,信息被Vary压缩在了256个图像tokens中,这也为进一步的页面分析和总结提供了更多的想象空间。
目前,Vary的代码和模型均已开源,还给出了供大家试玩的网页demo。
感兴趣的小伙伴可以去试试了~
以上就是旷视开源多模态大模型,支持文档级OCR,覆盖中英文,是否标志着OCR的终结?的详细内容,更多请关注其它相关文章!
# 模型
# 做网站优化哪家好
# 转换成
# 英文
# 端到
# 腾讯
# 这一
# 本田
# 出了
# 多模
# 文档
# 开源
# llama
# ocr
# 页面
# 南关短视频营销推广平台
# seo的商业链
# 涪陵seo营销
# 金华抖音付费营销推广招聘
# 不断改进网站建设
# 消毒液营销推广方案
# 耳环SEO优化方案
# 西宁网站seo优化网站
# 网页seo广告
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
机智云AI离线语音识别模组,让家电变得更加智能便捷
美图吴欣鸿:希望更多人用上AI时代的影像生产力工具
山东机器人编程:Scratch编程基础,认识舞台!~济南机器人编程
腾讯TRS之元学习与跨域推荐的工业实战
WHEE功能介绍
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
学而思推出AI第一课:基于自研大模型的AIGC课程
【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请
这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性
消息称字节机器人团队已有约50人,计划年底扩充到上百人
如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略
高质量数据推动AI场景化应用快速发展及落地
三星加速AR眼镜进程,预计明年上半年亮相
陈根:AI工具为游戏软件实时3D内容助力
苹果2万5的AR遭遇砍单95%:不及预期
午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|
中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平
世界人工智能大会高合发表演讲,HiPhi Y即将全球上市
微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课
扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身
VMS的应用:提升多品牌设备管理效能
世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感
2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩
周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由
科学家称,面对人工智能,人类未来或只有灭亡与虚拟永生两个选择
元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者
日入400万,第一批AI骗子已上岗
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能
从谷歌到亚马逊,科技巨头们的AI痴迷
真全息产品,亮相深圳文博会——dipal数伴拓展元宇宙非沉浸式体验
苹果公司迅速拓展AR/VR团队,Vision Pro发布后7月份增设近100份工作机会
Zoom远程会议应用:AI培训需经用户授权
创新全场景清洁方案!海尔商用机器人首发上市
2025年深圳举办的SUSECON 创新峰会开始接受报名
比尔盖茨:AI确实存在风险,但可控
国内通用人形机器人将发布、产业加速突破
【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!
【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年
中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备
机构:边缘AI或是当前预期差最大的AI方向
AI室内设计软件流行,室内设计行业如何应对效率变革
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
工业机器人及非标自动化设备集成服务提供商
Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合
探索人工智能在物联网领域的影响与改变
华为发布两款AI存储新品
新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实