发布时间:2025-11-04
点击次数: 
新加坡科技巨头 Grab 近期在其工程博客披露了自主研发视觉语言模型的技术路径,指出当前主流大型语言模型在应对东南亚地区多样的本地语言时存在明显短板。作为一款集打车、外卖配送、在线购物与数字金融服务于一体的超级应用,Grab 的业务遍及新加坡、马来西亚、印度尼西亚、菲律宾、越南、泰国、柬埔寨和缅甸等多个国家。这些区域广泛使用非拉丁字母的文字系统,为文本识别带来了巨大挑战。
在诸如用户身份核验等关键合规流程中,Grab 必须精准提取身份证件、驾驶执照及企业注册文件中的信息。虽然公司曾尝试部署传统光学字符识别(OCR)技术,但在面对格式各异、设计复杂的文档模板时,识别准确率难以满足实际需求。
进入2025年,Grab 转而探索大型语言模型在文档理解方面的潜力。尽管部分商业闭源模型具备较强能力,但其在处理泰语、爪哇语或越南语等区域性语言时常出现误读且响应延迟较高;而现有的开源视觉语言模型虽运行效率更优,却仍无法保证足够的识别精度。为此,Grab 决定自建专用视觉大模型,目标是将图像内容高效转化为可解析的文本向量。
团队选定阿里云开源的 Qwen2-VL-2B 模型作为基础架构,原因在于该模型体积轻巧
、支持多种东南亚语言,并能灵活适应不同分辨率的输入图像。随后,Grab 从 Common Crawl 数据集中搜集大量东南亚语言文本,并搭建了一套内部合成数据流水线,用于生成涵盖多种字体样式、背景纹理和排版方式的文本图像样本。
Playground AI
AI图片生成和修图
99
查看详情
初期,团队采用低秩适配(LoRA)技术对 Qwen2-VL 进行微调,在印尼语文档识别任务上取得了显著提升。然而,在处理泰语连写字符或越南语附加符号时,模型表现仍不稳定。于是,Grab 转向全参数微调策略,通过大规模训练使模型深入学习东南亚文字特有的视觉结构特征。
最终,Grab 成功打造了一个小型但高度专业化的视觉语言模型,其在本地化文档识别任务中的整体性能优于主流 OCR 工具以及多个通用大模型。公司强调,通过精心构建高质量、高相关性的训练数据集,即使是规模较小的模型也能实现卓越的实用性与效率平衡。
展望未来,Grab 表示将持续投入自有模型的研发,进一步拓展其在智能文档处理领域的技术边界。
以上就是Grab 自研语言模型解决亚洲语言识别难题的详细内容,更多请关注其它相关文章!
# 工具
# 阿里云
# 石材行业seo推广获客
# 青浦网站推广报价
# 福州福清网站seo优化
# seo专业术语解释
# seo营销询问29火星
# 内蒙古网站建设效果
# seo用什么工具
# 苏州 关键词排名
# 美国
# 微软
# 帮你
# 新加坡
# 多个
# 亚洲
# 开源
# 小哥
# 文档
# 东南亚
# qwen
# 2025
# 2025年
# 本地化
# 大模型
# 外卖
# 金融
# 潍坊seo排名公司
# 凌海外贸网站制作推广
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
游族AI创新院揭牌成立 推进AI赋能游戏业务
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
视觉中国宣布推出AI灵感绘图、画面扩展功能
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
B站内测 AI 搜索功能,输入“?”即可体验
为了避免人工智能可能带来的灾难,我们要向核安全学习
朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发
两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏
深度学习模型综述:用于3D MRI和CT扫描的应用
Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合
人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友
烟台大学学生首次在全国大学生无人机航拍竞赛中获奖
兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
陈根:AI冥想教练为用户提供个性化指导
图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响
OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键
阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
华为将于 7 月发布面向 AI 大模型的新款存储产品
严打“黑飞”,无人机检测反制设备护航大运会净空安全
13 个提高生产力的 AI 工具
微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果
新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实
探索人工智能在居家养老方面的应用
天翼云在国际AI顶会大模型挑战赛中获得冠军
大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升
【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!
音乐制作元工具AudioCraft发布开源AI工具
陈根:ChatGPT和人类合作开发机器人
映宇宙集团执行总编辑:元宇宙还是要以人为媒介
世界上第一个完全由人工智能驱动的图像编辑器!
华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能
【澎湃原动力】人工智能产业协同创新中心:全产业链资源在这里汇聚
当一切设备都受到人工智能的控制
30+大模型齐聚,大模型成世界人工智能大会“顶流”
Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛
将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?
引领AI变革,九章云极DataCanvas公司重磅发布AIFS+DataPilot
小米发布CyberDog2 - 他们的第二代仿生四足机器人展示
挤爆服务器,北大法律大模型ChatLaw火了:直接告诉你张三怎么判
7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会