400 128 6709

行业新闻

评估清华大学研发的 LLM4VG 基准在视频时序定位方面的性能

发布时间:2024-01-04点击次数:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

12 月 29 日消息,大语言模型(llm)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(video grounding,vg)。

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

VG任务的目标是根据给定的查询,定位目标视频段的起始和结束时间。这个任务的核心挑战在于准确确定时间边界。

清华大学研究团队近日推出了“LLM4VG”基准,这是一个专门设计用于评估 LLM 在 VG 任务中的性能。

在考虑此基准的时候,有两种主要的策略被考虑了。第一种策略是直接在文本视频数据集(VidLLM)上训练视频语言模型(LLM)。这种方法是通过在大规模的视频数据集上进行训练,来学习视频和语言之间的关联,以提高模型的性能。 第二种策略是将传统的语言模型(LLM)与预训练的视觉模型结合起来。这种方法是基于预训练的视觉模型,将视频的视觉特

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

在一种策略中,VidLLM模型直接处理视频内容和VG任务指令,并根据其训练输出预测文本-视频之间的关系。

第二种策略则更加复杂,它涉及到LLM(Language and Vision Models)和视觉描述模型的运用。这些模型能够生成与VG(Video Game)任务指令相结合的视频内容的文本描述,而这些描述经过精心设计的提示来实现。

这些提示是经过精心设计的,它们的目的是将VG的指令和提供的视觉描述有效地结合起来,以帮助LLM处理和理解与任务相关的视频内容。

Scenario Scenario

一个AI生成游戏资产的工具

Scenario 56 查看详情 Scenario

据观察,VidLLM 尽管直接在视频内容上进行训练,但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

而第二种策略优于 VidLLM,为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计,因此能够生成详细且准确的视频描述后,更精细的图形模型可以大幅提高 LLM 的 VG 性能。

清华大学研发 LLM4VG 基准:用于评估 LLM 视频时序定位性能

总之,该研究对 LLM 在 VG 任务中的应用进行了开创性的评估,强调了在模型训练和提示设计中需要更复杂的方法。

本站附上论文参考地址:https://www.php.cn/link/a7fd9fd835f54f0f28003c679fd44b39

以上就是评估清华大学研发的 LLM4VG 基准在视频时序定位方面的性能的详细内容,更多请关注其它相关文章!


# 人工智能  # follow  # 福特  # 本田  # 第二种  # 工作流  # 之王  # 结合起来  # 开发工具  # 清华大学  # 营销型网站建设布局图片  # 细心的泉州seo信息  # 新店推广营销宣传语录怎么写  # 贵州seo整站优化系统  # 吴江爱采购seo排名  # 短视频seo搜索招商  # 网站做优化效果怎样  # 保定家居行业网站建设招标  # 广西专业网站优化价格  # 视觉营销和推广哪个好  # 车外  # 开源 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?  月薪6万,哪些AI岗位在抢人?  复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐  OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试  OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观  马克龙密会AI专家,法国加入全球人工智能竞赛  引领AI变革,九章云极DataCanvas公司重磅发布AIFS+DataPilot  长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”  纪录片 《寻找人工智能》全集1080P超清  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  探索人工智能和物联网的动态融合  昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布  人形机器人概念大热!这些产业链标的或受提振  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析  如何成功实施人工智能?  售价14.99万起!小米汽车部分信息疑遭AI曝光,内部人士回应:网传图片明显经过处理,不可轻信  机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展  百度举办AIGC创作沙龙,现场传授AI绘画“咒语”技巧  智能机器人正在彻底改变客户服务  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  【|直播|预告】人工智能高峰论坛将于7月2日13:30准时开播!  华为发布两款AI存储新品  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  助力人工智能产业高质量发展 龙岗区算法训练基地正式启用  生成式AI与云结合,机遇与挑战并存  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  软银、淡马锡、沙特阿美突击入股,“协作机器人第一股”节卡股份:强敌环伺,持续失血是常态  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  “三夏”农忙保障用电,无人机高空巡视高压线  云南首例达芬奇机器人微创心脏手术成功开展  三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会  人工智能即将进入Windows:企业准备好安全策略设置了吗?  你大脑中的画面,现在可以高清还原了  亚马逊CEO:人工智能将成为公司未来战略的重中之重  业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代  腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  全新“AI助手”!讯飞星火助手中心人机协作共创新生态  微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出  航拍无人机怎么选?大疆无人机盘点推荐  随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司