400 128 6709

行业新闻

【视觉常识推理】基于paddle复现r2c

发布时间:2025-07-31点击次数:
本项目基于Paddle框架复现From Recognition to Cognition: Visual Commonsense Reasoning中的R2C模型,用于解决视觉常识推理任务。该任务要求模型依据图像、相关对象、问题,从四个答案中选出正确项,并从四个原因中选出最合理解释。此复现为相关研究提供了实践基础。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

【视觉常识推理】基于paddle复现r2c -

From Recognition to Cognition: Visual Commonsense Reasoning(r2c基于Paddle复现)

一、简介

本项目基于paddle复现From Recognition to Cognition: Visual Commonsense Reasoning中所提出的r2c模型,该模型用于解决视觉常识推理(Visual Commonsense Reasoning)任务,即给模型一个图像、一些对象、一个问题,四个答案和四个原因,模型必须决定哪个答案是正确的,然后在提供四个原因选出答案的最合理解释。

下面提供一个例子进行说明: 【视觉常识推理】基于paddle复现r2c -  对输入的图像、对象和问题 What is going to be happen next? ,模型需要选择答案d) 和原因d)。

论文地址:https://arxiv.org/abs/1811.10830

参考项目:https://github.com/rowanz/r2c

二、复现精度


Q → A QA → R Q → AR
原论文 63.8 67.2 43.1
复现精度 64.1 67.2 43.2

三、数据集

本项目所使用的数据集为 VCR ,由来自110K个电影场景的290K个多项选择的QA问题组成。

对于问题答案和原因,提供bert预训练好的特征,可从如下地址进行下载:

  • https://s3-us-west-2.amazonaws.com/ai2-rowanz/r2c/bert_da_answer_train.h5
  • https://s3-us-west-2.amazonaws.com/ai2-rowanz/r2c/bert_da_rationale_train.h5
  • https://s3-us-west-2.amazonaws.com/ai2-rowanz/r2c/bert_da_answer_val.h5
  • https://s3-us-west-2.amazonaws.com/ai2-rowanz/r2c/bert_da_rationale_val.h5
  • https://s3-us-west-2.amazonaws.com/ai2-rowanz/r2c/bert_da_answer_test.h5
  • https://s3-us-west-2.amazonaws.com/ai2-rowanz/r2c/bert_da_rationale_test.h5

建议的数据结构为:

data/
|-- vcr1images/ 
|   |-- VERSION.txt|   |-- movie name, like movieclips_A_Fistful_of_Dollars|   |   |-- image files, like Sv_GcxkmW4Y@29.jpg|   |   |-- metadata files, like Sv_GcxkmW4Y@29.json|-- bert_feature/|   |-- bert_da_answer_train.h5|   |-- bert_da_rationale_train.h5|   |-- bert_da_answer_val.h5|   |-- bert_da_rationale_val.h5|   |-- bert_da_answer_test.h5|   |-- bert_da_rationale_test.h5|-- train.jsonl|-- val.jsonl|-- test.jsonl|-- README.md
       

可以自行修改文件地址,但是对应的要修改文件读取中文件路径。

四、环境依赖

  • Python 3.7
  • paddle 2.2.1
  • paddlenlp

五、快速开始

在本地主机运行

训练

对于Q→ A,运行如下命令:

python train.py -floader model/s*es/flagship_answer
       

对于QA → R,运行如下命令:

python train.py -floader model/s*es/flagship_rationale -relation
       

测试

加载模型进行Q→ A测试,运行如下命令:

python eval.py -floader model/s*es/flagship_answer
       

#注:这里需要保证模型的名字为best.pd(或者可以在utils/paddle_misc的restore_best_checkpointh函数中修改模型的名字)。

加载模型进行QA→ R测试,运行如下命令:

python eval.py -floader model/s*es/flagship_rationale -relation
       

测试Q → AR效果,运行如下命令:

Openflow Openflow

一键极速绘图,赋能行业工作流

Openflow 88 查看详情 Openflow
python eval_q2ar.py -answer_preds model/s*es/flagship_answer/valpreds.npy -rationale_preds model/s*es/flagship_rationale/valpreds.npy
       

使用预训练模型

预训练最优模型下载:

链接: https://pan.baidu.com/s/1VeG64RFxoBbs1ivZUOkJ0g

提取码: c4ir

将对应模型放到对应的文件目录下。

在AiStudio运行

首先解压数据集,运行如下命令:

python train.py -floader model/s*es/flagship_answer
       

训练

对于Q→ A,运行如下命令:

unzip /home/aistudio/data/data122313/vcr1images.zip
       

对于QA → R,运行如下命令:

python train.py -floader model/s*es/flagship_rationale -relation
       

测试

加载模型进行Q→ A测试,运行如下命令:

python eval.py -floader model/s*es/flagship_answer
       

#注:这里需要保证模型的名字为best.pd(或者可以在utils/paddle_misc的restore_best_checkpointh函数中修改模型的名字)。

加载模型进行QA→ R测试,运行如下命令:

python eval.py -floader model/s*es/flagship_rationale -relation
       

测试Q → AR效果,运行如下命令:

python eval_q2ar.py -answer_preds model/s*es/flagship_answer/valpreds.npy -rationale_preds model/s*es/flagship_rationale/valpreds.npy
       

使用预训练模型

同上下载预训练模型放到对应文件夹下,进行测试即可。

六、代码结构

|--data|--dataloader|   |--__init__.py|   |--box_utils.py|   |--mask_utils.py|   |--vcr.py|--model|   |--multiatt|   |   |--__init__.py|   |   |--model.py|   |   |--mask_softmax.py|   |   |--BilinearMatrixAttention.py|   |--s*es|   |   |--flagship_answer|   |   |   |--best.pd|   |   |--flagship_rationale|   |   |   |--best.pd|--utils|   |--__init__.py|   |--detector.py|   |--paddle_misc.py|   |--Resnet50.py|   |--Resnet50_imagnet.py|   |--torch_resnet50.pkl|--train.py|--eval_q2ar.py|--config.py
   

以上就是【视觉常识推理】基于paddle复现r2c的详细内容,更多请关注其它相关文章!


# git  # python  # 数据结构  # 一言  # rationale  # fig  # udio  # red  # ai  # 国内用什么推广网站最好  # 安阳教育网站建设  # 南阳企业直播网站建设  # 德州做外贸网站排名优化  # 推广app营销策论  # 部队文化建设模板网站  # 蚌埠关键词排名多少钱  # 九江市场seo推广方案  # 一淘网seo  # 小说网站建立渠道推广怎么做  # 一个问题  # 多项  # 解决问题  # 相关文章  # 工作流  # 官网  # 加载  # 中文网 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: Nature封面:量子计算机离实际应用还有两年  如何用Transformer BEV克服自动驾驶的极端情况?  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  优傲机器人的人机协作技术 助力中小企发展  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  字节、网易相继入局,AI之后大厂又找到下一个风口?  【澎湃原动力】人工智能产业协同创新中心:全产业链资源在这里汇聚  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  超级智能到底是什么?  讯飞星火大模型实现升级 助力通用人工智能人才培养  烟台大学学生首次在全国大学生无人机航拍竞赛中获奖  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  全新“AI助手”!讯飞星火助手中心人机协作共创新生态  一图速览 | 十大脑机接口关键技术发布  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴  网易加速行业AI大模型应用,将覆盖100多个应用场景  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  焊接协作机器人或将成为26届埃森展最大看点  联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  2025年的网络分区:人工智能和自动化如何改变事物  热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…  WHEE上线时间介绍  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  美图公司吴欣鸿:AI技术重构影像产业  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  黄仁勋:5年前,我们对AI抱有巨大期望  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  利用AI技术更好地发展农村电商  今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告  生成式人工智能如何改变云安全的游戏规则  速途网络成立“人工智能专家委员会”5位中美博士加盟  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  谷歌新安卓机器人logo曝光:头更大了  苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展  人形机器人概念集体爆发,能买吗?  人工智能和你聊天 成本有多高  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  全场景智能车:智能无处不在|芯驰亮相世界人工智能大会  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单  联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实  谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司