发布时间:2025-02-28
点击次数: aixiv专栏持续关注并报道全球顶尖ai研究成果。多年来,我们已发布超过2000篇学术及技术文章,涵盖众多高校和企业实验室的领先研究。欢迎优秀研究者投稿或联系我们进行报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
当前,大语言模型(LLM)的创造力(Leap-of-Thought),与逻辑思维能力(Chain-of-Thought)同样重要,却鲜有深入探讨。这制约了LLM创造力发展,主要原因在于缺乏合适的自动化评估方法。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图 1
以往的LLM创造力评估多采用选择、排序等方法,这些方法虽然适用于逻辑思维能力评估,却难以有效衡量创造力。例如,要求根据图片和文字补充一句话,使其富有创造力和幽默感。如果提供选项“A. 可以帮忙扶一下我吗?”和“B. 可以帮我解开手铐吗?”,LLM可能无需创造力便选择B,因为B更独特。
图 2
LLM创造力评估应侧重于“生成创新内容的能力”,而非“判断创新内容的能力”。目前,人类评估和LLM-as-a-judge两种方法较为常用。人类评估准确率高,但成本高且不可持续;LLM-as-a-judge方法(通过zero-shot或fine-tuning LLM进行评分)尚处于初级阶段,稳定性不足。
为此,来自中大、哈佛、鹏城和新加坡管理大学的研究者提出了一种新的评估范式——LoTbench。该方法通过研究LLM生成高质量创新内容所需的“代价”(即LLM生成内容与人类水平创新内容的差距)来评估创造力,并已发表在IEEE TPAMI期刊上。
任务场景及内容
LoTbench基于CVPR'24的“梗王”大模型研究(Let's Think Outside the Box: Exploring Leap-of-Thought in Large Language Models with Creative Humor Generation),其核心任务是根据图片和文字补充一句话,使其富有创造力和幽默感(类似于日本“大喜利”游戏)。此类任务具有以下特点:
LoTbench通过计算LLM生成高质量创新内容所需的轮数来衡量创造力。轮数越少,创造力越高;轮数无限则创造力为零。
图 3
图 4
LoTbench的具体流程如图4所示,包括:
创造力分数Sc的计算考虑了HHCR样本数量和重复实验次数。
MedPeer科研绘图
生物医学领域的专业绘图解决方案,告别复杂绘图,专注科研创新
166
查看详情
异曲同工之妙(DAESO)的判断
由于创造力任务的多样性,需要判断两个响应是否“异曲同工”。这需要满足两个条件:
功能相似性与语义相似性有所不同。
图 5
图 6
通过对HHCR进行详细解释标注,并利用LLM构建因果链条,可以实现对DAESO的判断。基于
GPT-4,准确率可达80%-90%。
测评结果
LoTbench对主流LLM的测评结果显示,当前LLM的创造力仍有提升空间,但具备超越人类的潜力。
图 7
图 8 更多细节请参考原文。
以上就是探索跳跃式思维链:DeepSeek创造力垫底,Qwen系列接近人类顶尖水平的详细内容,更多请关注其它相关文章!
# git
# 品牌问答推广营销平台
# 马鞍山市网站推广外包
# 阿里云空间SEO
# 淘宝seo 案例
# 张掖网站关键词建设排名
# 句话
# 多项
# 使其
# 所需
# 腾讯
# 还能
# 首次
# 奥迪
# 异曲同工
# 高质量
# qwen
# deepseek
# 邮箱
# ai
# 工程
# seo论坛涉及内容
# 网站优化的习惯
# 辽宁正规seo外包费用
# 建设网站怎么报价
# 怀化网站建设方法
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
五项人工智能尚未能够实现的任务
美图秀秀发布7款AI产品:支持用户创作、商业创作
美图影像节演讲实录:191次提及AI,发布7款影像生产力工具
AI和ML推动联网设备的增长
AI生成新闻网站数量激增,正在疯狂赚取广告收入
2025年贵州省青少年机器人竞赛在安举行
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
加强能源消费绿色转型政策引导
大厂出品!这个AI网站太顶了,所有功能免费用
清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时
基于预训练模型的金融事件分析及应用
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
新华全媒+|AI:当心,我可能欺骗了你!
机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展
干货满满,2025昆山元宇宙国际装备展等你来打卡!
抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制
人工智能的变革之路:通过OpenAI的GPT-4漫游
脑机接口产业联盟发布十大脑机接口关键技术
十个AI算法常用库J*a版
不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”
吴恩达、Hinton最新对话!AI不是随机鹦鹉,共识胜过一切,LeCun双手赞成
以计算机视觉技术为基础的库存管理如何改革零售行业
CREATOR制造、使用工具,实现LLM「自我进化」
石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软
AI赋能艺术 超现实达利奇幻之旅在沪开启
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
科技赋能司法执行 阿里资产免费为全国法院升级VR新服务
张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型
再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?
英国前首相:AI可能被用来制造“生物恐怖武器”
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
李开复官宣新公司「零一万物」,进军 AI 2.0
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
高质量数据推动AI场景化应用快速发展及落地
机器人技能大比拼
新闻传闻:迪士尼可能采用人工智能来控制电影制作成本
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
马斯克回应人工智能拯救世界:人类已处于“半机器人”状态
Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
中兴通讯无人机高空基站助力北京门头沟受灾乡镇保障应急通信
自动驾驶汽车避障、路径规划和控制技术详解
腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作
世界人工智能大会中西部县域数字就业中心组团亮相
马斯克称人类是半机器人,记忆外包给了电脑
《自然》杂志拒绝刊登人工智能生成的图片和视频