发布时间:2023-07-07
点击次数: 喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新
近日,2025年国际顶级语音会议ASRU(IEEE Automatic Spe
ech Recognition and Understanding,自动语音识别与理解)的多通道多方会议转录挑战赛(M2MeT2.0)圆满结束,喜马拉雅珠峰实验室取得了卓越成绩,荣获冠军殊荣。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜


ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题。M2MeT2.0挑战赛是ASRU 2025年的一项关键赛事,其目标是解决离线会议室语音重叠的转录问题。会议场景作为典型的多人自由交谈的"鸡尾酒会场景"一直是语音识别领域的难点和关注焦点,对于开发会议场景的语音人工智能和探索相关问题的工业级解决方案具有重要意义。
值得注意的是,喜马拉雅不是第一次参加ASRU的M2MeT挑战赛。在首届M2MeT挑战赛中,喜马拉雅与中国科学技术大学合作,在说话人日志赛道中荣获第三名,并且取得了仅有4.05%的日志错误率。在首届挑战赛中,评估使用字符错误率(CER)作为指标,仅将音频转录为文本,而不考虑说话人标签。基于首届的成功,M2MeT2.0挑战赛将着重于说话人相关的评估,推动多说话人语音识别系统的实用化,并设立了限定数据和不限定数据两个子赛道。
为了应对这一挑战,喜马拉雅珠峰实验室从语音识别基础框架出发,展开了混叠语音检测技术和说话人日志技术等方面的技术探索。喜马拉雅在M2MeT2.0挑战赛的限定数据集和开放数据集两个子赛道上均获得了优异的第一名成绩。
今年的M2MeT2.0挑战赛数据集包含了真实、多场景、多模态的大规模数据,涵盖了不同规模和布局的多种会议室,模拟了各种家具、不同主题的例会以及各种室内噪音。这些交错重叠的声音,如人声、电视声、风扇空调声、键盘声、开门/关门声、气泡声等,为比赛增加了难度。通过同时使用麦克风阵列记录远距离声音和耳机麦克风记录近距离声音,确保了对应说话者的语音准确转录。这一数据集对于多说话人语音识别和语音重叠问题的研究具有重要的学术意义,并为寻找工业级解决方案提供了真实且多样化的数据资源。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
M2MeT2.0挑战赛数据集中所有说话人的母语均为汉语,喜马拉雅通过产学研相结合的方式积极参与其中,致力于为中国本土语音识别技术的发展作出贡献。在M2MeT2.0挑战赛中,喜马拉雅展示了出色的说话人和语音识别技术(ASR)展现出了卓越的性能,其珠峰实验室团队通过自研的说话人识别、语音增强和语音识别等模块的优化和经验,在语音重叠和多说话人环境下取得了显著突破。通过结合深度学习和神经网络模型,喜马拉雅珠峰实验室能够实时转录并精准识别分离多个说话人的语音。
喜马拉雅相关技术不仅在ASRU 2025年M2MeT2.0挑战赛中得到验证,还已应用赋能于喜马拉雅AIGC内容生产中。目前,喜马拉雅自动语音识别(ASR)技术已广泛应用到了喜马拉雅App的AI文稿功能,对喜马拉雅平台中无文稿的声音内容进行语音转写,并输出相应的文字,从而便于听众更好地理解声音内容。同时,对于已有原始文稿的声音内容,喜马拉雅的AI文稿功能通过超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,实现声音播放与相应文字的同步高亮,让用户能够更便捷地享受边听边看的内容消费体验。

除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,喜马拉雅通过将自主设计单独的韵律提取模块融入到HiTTS 技术框架,完美复现了单田芳的“声音”。据报道,喜马拉雅上线了逾100张由单田芳AI合成音合成的专辑,累计播放量已超过1亿次。
多年来,喜马拉雅一直在AI语音技术领域进行深入研究,其珠峰实验室长期专注于语音合成、情感分析、语音识别等领域的研究和创新。通过参与ASRU 2025年M2MeT2.0挑战赛并获得冠军,喜马拉雅进一步巩固了在语音技术领域的领先地位,并展示了在解决复杂语音场景下的出色能力。
作为备受用户喜爱的在线音频平台,喜马拉雅一直秉持着以科技赋能文化的理念,不断将技术与创作者、用户相结合,提升内容生产效率并提供卓越的内容体验。喜马拉雅也将持续通过科技赋能和产学研相结合的方式,将先进而智能的语音技术与声音相结合,为用户提供卓越的语音技术产品和服务。
以上就是喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新的详细内容,更多请关注其它相关文章!
# 喜马拉雅
# 赛中
# 语音识别
# 转录
# 珠峰
# peech
# 杭州关键词排名推广软件
# 江苏关键词推广seo
# 家具seo服务
# 公司推广网站只信w火19星棒
# seo技术咸宁
# 北海seo建站方法
# seo推广学习网站
# 教育网站推广
# 抚顺seo公司如何引流
# 茶叶论坛营销推广方案
# 的是
# 取得了
# 这一
# 人日
# 多说
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
塑造全能智能管家:华为小艺AI加成应对大模型挑战
成都大运会闭幕式引入人形机器人展示表演
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
DeepMind推惊世排序算法,C++库忙更新!
不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”
国内通用人形机器人将发布、产业加速突破
智能客服进入AI 2.0时代 容联云发布语言大模型“赤兔”
能走、能飞、能游泳,科学家打造全能 M4 机器人
海南省公安机关警用无人机培训班结业并举行警航比武演练
马斯克发推讽刺人工智能:机器学习的本质就是统计
阿里达摩院向公众免费开放100项AI专利许可
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?
马斯克称人类是半机器人,记忆外包给了电脑
华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
人工智能在项目管理中的作用
人工智能助力林草行业高质量发展
云深处科技绝影 Lite3 与 X20 四足机器人亮相
AYANEO 安卓掌机 Pocket AIR 配置公布:天玑 1200 + 5.5 英寸屏
AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会
尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
当一个网站的内容被 AI 完全接管
独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机
人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
美图秀秀发布7款AI产品:支持用户创作、商业创作
加强能源消费绿色转型政策引导
国内首家,360智脑通过中国信通院可信AIGC大语言模型功能评估
通用医疗人工智能如何革新医疗行业?
AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布
“长沙造”无人机,领先的不止植保
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
北京市通用人工智能产业创新伙伴计划名单公布,京东科技入选“算力伙伴”
一文读懂自动驾驶的激光雷达与视觉融合感知
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
“无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼
XREAL发布新款硬件XREAL Beam投屏盒子:可悬停AR空间屏
商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
五个出色的人工智能应用实例
AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?
J*a与人工智能结合:构建智能云服务
Win11 AI 助手 Windows Copilot 被吐槽:套皮的 Edge 浏览器
PHP和OpenCV库:如何实现人脸识别
全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人
生活垃圾智能分类机器人社区展“才能”,征求居民意见