发布时间:2024-05-30
点击次数: 大型语言模型(llm)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合到参数中。
在机制层面上,我们并不真正知道这种相互作用是如何发生的。根据一些人的说法,接触这种新知识可能会导致模型产生幻觉。这是因为模型被训练成生成不以其预先存在的知识为基础的事实(或者可能与模型的先前知识冲突)。模型还有可能会遇到何种看起来的知识(例如,在预训练语料库中较少出现的实体)。

因此,最近发表的一项研究关注的是分析当模型通过微调得到新知识时会发生什么。作者详细研究了一个经过微调的模型会发生什么,以及它在获得新知识后的反应会发生什么。
他们尝试在微调后对示例进行知识级别的分类。一个新例子固有的知识可能与模型的知识不完全一致。例子可以是已知的,也可以是未知的。即使已知,它也可能是高度已知的,可能是已知的,或者是不太为人所知的知识。

然后作者采用了一个模型(PaLM 2-M)对其进行了微调。每个微调的例子都是由事实知识构成的(主体、关系、对象)。这是为了允许模型用特定的问题、特定的三元组(例如,“巴黎在哪里?”)和基本事实答案(例如,“法国”)查询这些知识。换句话说,它们为模型提供一些新知识,然后将这些三元组重构为问题(问答对)以测试其知识。他们将所有这些例子分成上述讨论的类别,然后评估答案。
经过了模型进行了微调后测试结果:未知事实的高比例会导致性能下降(这不会通过更长的微调时间来补偿)。

未知事实在较低的epoch数下几乎是中性的影响,但在更多的epoch数下会损害性能。所以未知的例子似乎是有害的,但它们的负面影响主要体现在训练的后期阶段。下图显示了数据集示例的已知和未知子集的训练精度作为微调持续时间的函数。可以看出,该模型在较晚阶段学习了未知样例。
Lastly, since Unknown examples are the ones that are likely to introduce new factual knowledge, their significantly slow fitting rate suggests that LLMs struggle to acquire new factual knowledge through fine-tuning, instead they learn to expose their preexisting knowledge using the Known examples.

作者尝试对这种准确度与已知和未知例子之间的关系是进行量化,以及它是否是线性的。结果表明,未知的例子会损害性能,而已知的例子会提高性能,这之间存在很强的线性关系,几乎同样强烈(这种线性回归中的相关系数非常接近)。

这种微调不仅对特定情况下的性能有影响,而且对模型知识有广泛的影响。作者使用分布外(OOD)的测试集表明,未知样本对OOD性能是有害的。根据作者的说法,这与幻觉的发生也有关系:
灵感PPT
AI灵感PPT - 免费一键PPT生成工具
308
查看详情
Overall, our insights transfer across relations. This essentially shows that fine-tuning on Unknown examples such as “Where is [E1] located?”, can encourage hallucinations on seemingly unrelated questions, such as “Who founded [E2]?”.
另外一个有趣的结果是,最好的结果不是用众所周知的例子获得的,而是用可能已知的例子。换句话说,这些例子允许模型更好地利用其先
验知识(过于众所周知的事实不会对模型产生有用的影响)。

相比之下,未知和不太清楚的事实会损害模型的表现,而这种下降源于幻觉的增加。
This work highlights the risk in using supervised fine-tuning to update LLMs’ knowledge, as we present empirical evidence that acquiring new knowledge through finetuning is correlated with hallucinations w.r.t preexisting knowledge.
根据作者的说法,这种未知的知识可能会损害性能(这使得微调几乎毫无用处)。而用“我不知道”标记这种未知知识可以帮助减少这种伤害。

Acquiring new knowledge via supervised fine-tuning is correlated with hallucinations w.r.t. pre-existing knowledge. LLMs struggle to integrate new knowledge through fine-tuning and mostly learn to use their pre-existing knowledge.
综上所述,如果在微调过程中出现未知知识,则会对模型造成损害。这种性能下降与幻觉的增加有关。相比之下,可能已知的例子反而有有益的影响。这表明该模型难以整合新知识。也就是说在模型所学到的知识和它如何使用新知识之间存在冲突。这可能与对齐和指令调优有关(但是这篇论文没有研究这一点)。
所以如果想要使用具有特定领域知识的模型,论文建议最好使用RAG。并且带有“我不知道”标记的结果可以找到其他策略来克服这些微调的局限性。
这项研究是非常有意思,它表明微调的因素以及如何解决新旧知识之间的冲突仍然不清楚。这就是为什么我们要测试微调前和后结果的原因。
以上就是微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉的详细内容,更多请关注其它相关文章!
# 广州
# 江津靠谱seo哪家好
# 华为产品推广营销策略
# 随州seo推广策略研究
# 德清网站建设抖音seo优化
# 放心关键词排名价格
# 简单网站建设个人总结
# BANNER网站建设
# 外贸推广营销正规外贸巴巴
# 绥德抖音关键词搜索排名
# 天水短视频营销策划抖音推广公司
# 人工智能
# 量产
# 重构
# 不太
# 中东
# 我不
# 能与
# 新东西
# 新知识
# 能让
# 大型语言模型
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组
两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
成功孵化首个大型模型解决方案的重庆人工智能创新中心
对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人
调查:过半数艺术家认为 AI 作图无法帮助他们的工作
大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升
插画师对AI绘画软件的态度是怎样的?
OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请
杀入生成式AI的亚马逊云科技,能否再次生成未来?
618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍
Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
Gartner发布中国企业人工智能趋势浪潮3.0
“图壤·阅读元宇宙”亮相北京国际图书博览会
周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业
特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量
Databricks 发布大数据分析平台 Spark 用 AI 模型 SDK:一键生成 SQL 及 FySpark 语言图表代码
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
AI成政客博弈工具,美国大选真假难辨,律师们的生意来了
猿编程参加人工智能高峰论坛,推动人工智能教育解决方案在千所学校推行
自己动手使用AI技术实现数字内容生产
V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中
AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?
构建人机交互创新模式,微美全息研究AIGC智能交互界面生成技术
网易加速行业AI大模型应用,将覆盖100多个应用场景
随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了
当孔子遇见AI|尼山的“数字”
从谷歌到亚马逊,科技巨头们的AI痴迷
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
自动驾驶汽车避障、路径规划和控制技术详解
赋能选题探索:AI助手在经济学专业中的应用指南
破解零碳产业园建设规范和成果评价难题
2025“春晖杯”人工智能专场对接活动举办
鸿蒙4即将支持大规模AI模型
机器人加速!稀土永磁也被带火,持续性如何?
你大脑中的画面,现在可以高清还原了
马克龙密会AI专家,法国加入全球人工智能竞赛
标小智LOGO推出AI公司起名生成器“Name.GPT”
用AI技术点亮老照片:Deep Nostalgia带给照片新生动感
Bing 聊天机器人现支持在桌面端用语音提问
Meta发布"类人"AI图像创建模型,能解决多出手指等Bug
联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
联想举办2025创新开放日,展出260余项算力及AI产品技术
最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”
一文看懂被英伟达看中的九号机器人移动底盘
贫穷让我预训练
AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit
生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用