400 128 6709

行业新闻

探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平

发布时间:2025-02-28点击次数:

aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

当前,大语言模型(LLM)的创造力(Leap-of-Thought),与逻辑思维能力(Chain-of-Thought)同样重要,却鲜有深入探讨。这制约了LLM创造力发展,主要原因在于缺乏合适的自动化评估方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片 图 1

以往的LLM创造力评估多采用选择、排序等方法,这些方法虽然适用于逻辑思维能力评估,却难以有效衡量创造力。例如,要求根据图片和文字补充一句话,使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”,LLM可能无需创造力便选择B,因为B更独特。图片 图 2

LLM创造力评估应侧重于“生成创新内容的能力”,而非“判断创新内容的能力”。目前,人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高,但成本高且不可持续;LLM-as-a-judge方法(通过zero-shot或fine-tuning LLM进行评分)尚处于初级阶段,稳定性不足。

为此,来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”(即LLM生成内容与人类水平创新内容的差距)来评估创造力,并已发表在IEEE TPAMI期刊上。图片

  • 论文题目:A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models
  • 论文链接:https://www.php.cn/link/a64bcca2a087451831e31b6d339940b9
  • 项目主页:https://www.php.cn/link/4c21c9d351543562af3562a7add8685f

任务场景及内容

LoTbench基于CVPR'24的“梗王”大模型研究(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation),其核心任务是根据图片和文字补充一句话,使其富有创造力和幽默感(类似于日本“大喜利”游戏)。此类任务具有以下特点:

  1. 高度依赖创造力;
  2. 适合多模态LLM的输入输出格式;
  3. 拥有大量高质量人类标注数据。

LoTbench通过计算LLM生成高质量创新内容所需的轮数来衡量创造力。轮数越少,创造力越高;轮数无限则创造力为零。图片 图 3 图片 图 4

LoTbench的具体流程如图4所示,包括:

  1. 选择高质量人类创新内容(HHCR)数据;
  2. LLM多轮生成响应,判断是否与HHCR“异曲同工”(DAESO);
  3. LLM提出疑问,系统根据HHCR返回答案;
  4. 更新交互信息,循环步骤1。

创造力分数Sc的计算考虑了HHCR样本数量和重复实验次数。图片

MedPeer科研绘图 MedPeer科研绘图

生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新

MedPeer科研绘图 166 查看详情 MedPeer科研绘图

异曲同工之妙(DAESO)的判断

由于创造力任务的多样性,需要判断两个响应是否“异曲同工”。这需要满足两个条件:

  1. 相同的核心创新解释;
  2. 相同的功能相似性。

功能相似性与语义相似性有所不同。图片 图 5 图片 图 6

通过对HHCR进行详细解释标注,并利用LLM构建因果链条,可以实现对DAESO的判断。基于GPT-4,准确率可达80%-90%。

测评结果

LoTbench对主流LLM的测评结果显示,当前LLM的创造力仍有提升空间,但具备超越人类的潜力。图片 图 7 图片 图 8 更多细节请参考原文。

以上就是探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平的详细内容,更多请关注其它相关文章!


# git  # 品牌问答推广营销平台  # 马鞍山市网站推广外包  # 阿里云空间SEO  # 淘宝seo 案例  # 张掖网站关键词建设排名  # 句话  # 多项  # 使其  # 所需  # 腾讯  # 还能  # 首次  # 奥迪  # 异曲同工  # 高质量  # qwen  # deepseek  # 邮箱  # ai  # 工程  # seo论坛涉及内容  # 网站优化的习惯  # 辽宁正规seo外包费用  # 建设网站怎么报价  # 怀化网站建设方法 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 五项人工智能尚未能够实现的任务  美图秀秀发布7款AI产品:支持用户创作、商业创作  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  AI和ML推动联网设备的增长  AI生成新闻网站数量激增,正在疯狂赚取广告收入  2025年贵州省青少年机器人竞赛在安举行  Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务  加强能源消费绿色转型政策引导  大厂出品!这个AI网站太顶了,所有功能免费用  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  基于预训练模型的金融事件分析及应用  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  新华全媒+|AI:当心,我可能欺骗了你!  机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展  干货满满,2025昆山元宇宙国际装备展等你来打卡!  抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制  人工智能的变革之路:通过OpenAI的GPT-4漫游  脑机接口产业联盟发布十大脑机接口关键技术  十个AI算法常用库J*a版  不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”  吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成  以计算机视觉技术为基础的库存管理如何改革零售行业  CREATOR制造、使用工具,实现LLM「自我进化」  石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软  AI赋能艺术 超现实达利奇幻之旅在沪开启  随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了  科技赋能司法执行 阿里资产免费为全国法院升级VR新服务  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?  英国前首相:AI可能被用来制造“生物恐怖武器”  朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪  李开复官宣新公司「零一万物」,进军 AI 2.0  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代  高质量数据推动AI场景化应用快速发展及落地  机器人技能大比拼  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  马斯克回应人工智能拯救世界:人类已处于“半机器人”状态  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  中兴通讯无人机高空基站助力北京门头沟受灾乡镇保障应急通信  自动驾驶汽车避障、路径规划和控制技术详解  腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作  世界人工智能大会中西部县域数字就业中心组团亮相  马斯克称人类是半机器人,记忆外包给了电脑  《自然》杂志拒绝刊登人工智能生成的图片和视频 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司