发布时间:2025-07-31
点击次数: 本项目基于Paddle框架复现From Recognition to Cognition: Visual Commonsense Reasoning中的R2C模型,用于解决视觉常识推理任务。该任务要求模型依据图像、相关对象、问题,从四个答案中选出正确项,并从四个原因中选出最合理解释。此复现为相关研究提供了实践基础。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

本项目基于paddle复现From Recognition to Cognition: Visual Commonsense Reasoning中所提
出的r2c模型,该模型用于解决视觉常识推理(Visual Commonsense Reasoning)任务,即给模型一个图像、一些对象、一个问题,四个答案和四个原因,模型必须决定哪个答案是正确的,然后在提供四个原因选出答案的最合理解释。
下面提供一个例子进行说明:
对输入的图像、对象和问题 What is going to be happen next? ,模型需要选择答案d) 和原因d)。
论文地址:https://arxiv.org/abs/1811.10830
参考项目:https://github.com/rowanz/r2c
| Q → A | QA → R | Q → AR | |
|---|---|---|---|
| 原论文 | 63.8 | 67.2 | 43.1 |
| 复现精度 | 64.1 | 67.2 | 43.2 |
本项目所使用的数据集为 VCR ,由来自110K个电影场景的290K个多项选择的QA问题组成。
对于问题答案和原因,提供bert预训练好的特征,可从如下地址进行下载:
建议的数据结构为:
data/ |-- vcr1images/ | |-- VERSION.txt| |-- movie name, like movieclips_A_Fistful_of_Dollars| | |-- image files, like Sv_GcxkmW4Y@29.jpg| | |-- metadata files, like Sv_GcxkmW4Y@29.json|-- bert_feature/| |-- bert_da_answer_train.h5| |-- bert_da_rationale_train.h5| |-- bert_da_answer_val.h5| |-- bert_da_rationale_val.h5| |-- bert_da_answer_test.h5| |-- bert_da_rationale_test.h5|-- train.jsonl|-- val.jsonl|-- test.jsonl|-- README.md
可以自行修改文件地址,但是对应的要修改文件读取中文件路径。
对于Q→ A,运行如下命令:
python train.py -floader model/s*es/flagship_answer
对于QA → R,运行如下命令:
python train.py -floader model/s*es/flagship_rationale -relation
加载模型进行Q→ A测试,运行如下命令:
python eval.py -floader model/s*es/flagship_answer
#注:这里需要保证模型的名字为best.pd(或者可以在utils/paddle_misc的restore_best_checkpointh函数中修改模型的名字)。
加载模型进行QA→ R测试,运行如下命令:
python eval.py -floader model/s*es/flagship_rationale -relation
测试Q → AR效果,运行如下命令:
Openflow
一键极速绘图,赋能行业工作流
88
查看详情
python eval_q2ar.py -answer_preds model/s*es/flagship_answer/valpreds.npy -rationale_preds model/s*es/flagship_rationale/valpreds.npy
预训练最优模型下载:
链接: https://pan.baidu.com/s/1VeG64RFxoBbs1ivZUOkJ0g
提取码: c4ir
将对应模型放到对应的文件目录下。
首先解压数据集,运行如下命令:
python train.py -floader model/s*es/flagship_answer
对于Q→ A,运行如下命令:
unzip /home/aistudio/data/data122313/vcr1images.zip
对于QA → R,运行如下命令:
python train.py -floader model/s*es/flagship_rationale -relation
加载模型进行Q→ A测试,运行如下命令:
python eval.py -floader model/s*es/flagship_answer
#注:这里需要保证模型的名字为best.pd(或者可以在utils/paddle_misc的restore_best_checkpointh函数中修改模型的名字)。
加载模型进行QA→ R测试,运行如下命令:
python eval.py -floader model/s*es/flagship_rationale -relation
测试Q → AR效果,运行如下命令:
python eval_q2ar.py -answer_preds model/s*es/flagship_answer/valpreds.npy -rationale_preds model/s*es/flagship_rationale/valpreds.npy
同上下载预训练模型放到对应文件夹下,进行测试即可。
|--data|--dataloader| |--__init__.py| |--box_utils.py| |--mask_utils.py| |--vcr.py|--model| |--multiatt| | |--__init__.py| | |--model.py| | |--mask_softmax.py| | |--BilinearMatrixAttention.py| |--s*es| | |--flagship_answer| | | |--best.pd| | |--flagship_rationale| | | |--best.pd|--utils| |--__init__.py| |--detector.py| |--paddle_misc.py| |--Resnet50.py| |--Resnet50_imagnet.py| |--torch_resnet50.pkl|--train.py|--eval_q2ar.py|--config.py
以上就是【视觉常识推理】基于paddle复现r2c的详细内容,更多请关注其它相关文章!
# git
# python
# 数据结构
# 一言
# rationale
# fig
# udio
# red
# ai
# 国内用什么推广网站最好
# 安阳教育网站建设
# 南阳企业直播网站建设
# 德州做外贸网站排名优化
# 推广app营销策论
# 部队文化建设模板网站
# 蚌埠关键词排名多少钱
# 九江市场seo推广方案
# 一淘网seo
# 小说网站建立渠道推广怎么做
# 一个问题
# 多项
# 解决问题
# 相关文章
# 工作流
# 官网
# 加载
# 中文网
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
Nature封面:量子计算机离实际应用还有两年
如何用Transformer BEV克服自动驾驶的极端情况?
全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率
优傲机器人的人机协作技术 助力中小企发展
可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能
字节、网易相继入局,AI之后大厂又找到下一个风口?
【澎湃原动力】人工智能产业协同创新中心:全产业链资源在这里汇聚
硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲
超级智能到底是什么?
讯飞星火大模型实现升级 助力通用人工智能人才培养
烟台大学学生首次在全国大学生无人机航拍竞赛中获奖
AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点
全新“AI助手”!讯飞星火助手中心人机协作共创新生态
一图速览 | 十大脑机接口关键技术发布
华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合
值得买科技入选“北京市通用人工智能产业创新伙伴计划”应用伙伴
网易加速行业AI大模型应用,将覆盖100多个应用场景
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
焊接协作机器人或将成为26届埃森展最大看点
联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临
好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”
马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧
2025年的网络分区:人工智能和自动化如何改变事物
热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…
WHEE上线时间介绍
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
美图公司吴欣鸿:AI技术重构影像产业
九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布
腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果
Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码
鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?
黄仁勋:5年前,我们对AI抱有巨大期望
华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来
利用AI技术更好地发展农村电商
今年,全球客服中心支出将增长 16.2%,迎接对话式 AI 的浪潮,根据 Gartner 报告
生成式人工智能如何改变云安全的游戏规则
速途网络成立“人工智能专家委员会”5位中美博士加盟
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
谷歌新安卓机器人logo曝光:头更大了
苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展
人形机器人概念集体爆发,能买吗?
人工智能和你聊天 成本有多高
普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景
全场景智能车:智能无处不在|芯驰亮相世界人工智能大会
高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案
世界人工智能大会机器人同台炫技!梳理A股相关业务营收占比超50%的个股名单
联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实
谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务