发布时间:2023-07-11
点击次数: 今年 2 月,Meta 发布的 LLaMA 大型语言模型系列,成功推动了开源聊天机器人的发展。因为 LLaMA 比之前发布的很多大模型参数少(参数量从 70 亿到 650 亿不等),但性能更好,例如,最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B,所以一经发布让很多研究者兴奋不已。
然而,LLaMA 仅授权给学术界的研发人员使用,从而限制了该模型的商业应用。
因而,研究者开始寻找那些可用于商业用途的 LLaMA,UC 伯克利的博士生 Hao Liu 发起的项目 OpenLLaMA,就是其中一个比较热门的 LLaMA 开源复制品,其使用了与原始 LLaMA 完全相同的预处理和训练超参数,可以说 OpenLLaMA 完全按照 LLaMA 的训练步骤来的。最重要的一点是,该模型可商用。
OpenLLaMA 在 Together 公司发布的 RedPajama 数据集上训练完成,有三个模型版本,分别为 3B、7B 和 13B,这些模型都经过了 1T tokens 的训练。结果显示,OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当,甚至有超越的情况。
除了不断发布新模型,研究者对模型处理 token 的能力探索不断。
几天前,田渊栋团队的最新研究用不到 1000 步微调,将 LLaMA 上下文扩展到 32K。再往前追溯,GPT-4 支持 32k token(这相当于 50 页的文字) ,Claude 可以处理 100k token (大概相当于一键总结《哈利波特》第一部)等等。
现在,一个新的基于 OpenLLaMA 大型语言模型来了,它将上下文的长度扩展到 256k token,甚至更多。该研究由 IDEAS NCBR 、波兰科学院、华沙大学、 Google DeepMind 联合完成。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
图片
LongLLaMA 基于 OpenLLaMA 完成,微调方法采用 FOT ( Focused Transformer )。本文表明,FOT 可以用于对已经存在的大型模型进行微调,以扩展其上下文长度。
该研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型为起点,并使用 FOT 对它们进行微调。由此产生的模型称之为 LONGLLAMAs,能够在其训练上下文长度之外进行外推(甚至可以达到 256K),并且在短上下文任务上还能保持性能。
有人将这一研究形容为 OpenLLaMA 的无限上下文版本,借助 FOT,模型很容易外推到更长的序列,例如在 8K token 上训练的模型,可以很容易外推到 256K 窗口大小。
图片
本文用到了 FOT 方法,它是 Transformer 模型中一种即插即用的扩展,可用于训练新模型,也可对现有的较大模型进行更长上下文微调。
为了达到这一目的,FOT 使用了记忆注意力层和跨批次(crossbatch)训练过程:
有关 FOT 架构的概述,请参见图 2:
图片
下表为 LongLLaMA 的一些模型信息:
图片
最后,该项目还提供了
LongLLaMA 与原始 OpenLLaMA 模型的比较结果。
下图为 LongLLaMA 一些实验结果,在密码检索任务上,LongLLaMA 取得了良好的性能。具体而言,LongLLaMA 3B 模型远远超出了它的训练上下文长度 8K,对于 token 为 100k 时,准确率达到 94.5%,当 token 为 256k 时,准确率为 73%。
图片
下表为 LongLLaMA 3B 模型在两个下游任务(TREC 问题分类和 WebQS 问题回答)上的结果,结果显示,在使用长上下文时,LongLLaMA 性能改进明显。
图片
下表显示了即使在不需要长上下文的任务上,LongLLaMA 也能表现良好。实验在零样本设置下,对 LongLLaMA 和 OpenLLaMA 进行了比较。
图片
了解更多细节,可参考原论文与项目。
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情
以上就是将上下文长度扩展到256k,无限上下文版本的LongLLaMA来了?的详细内容,更多请关注其它相关文章!
# 华沙
# 兴化网站定制化建设
# 太原关键词排名大概费用
# 扬州大搜seo商
# 德化网站建设价格查询
# 重庆seo营销方法分析
# 小红书seo入门教学
# 家政小程序营销推广思路
# 忻州关键词seo
# 新品推广营销方式
# 鹤壁网站推广公司地址
# 推到
# 模型
# 很容易
# 下表
# 丰田
# 这一
# 中国科学院
# 开源
# 扩展到
# 来了
# llama
# claude
# ai
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革
Meta 为打造元宇宙不惜下血本:VR 开发者年薪高达百万美元
测试框架-安全和自动驾驶
腾讯机器狗进化:通过深度学习掌握自主决策能力
「模仿学习」只会套话?解释微调+130亿参数Orca:推理能力打平ChatGPT
爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
中国最强AI研究院的大模型为何迟到了
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源
高质量数据推动AI场景化应用快速发展及落地
聚焦WAIC|AI技术支撑大模型探索未来
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
比尔盖茨:AI确实存在风险,但可控
静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!
百度文心一言App上架苹果商店,人工智能创作引发热议
腾讯汤道生:大模型只是起点,产业落地是AI更大的应用场景
360°/180°双模式,佳能公布可折叠小体积的VR全景相机
美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
30+大模型齐聚,大模型成世界人工智能大会“顶流”
如何成功实施人工智能?
爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
新闻传闻:迪士尼可能采用人工智能来控制电影制作成本
美图第二届影像节发布七款AI影像创作工具
抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制
加强能源消费绿色转型政策引导
埃森哲俞毅:AI时代我们需要新的“摩尔定律”
酒店业将如何受益于人工智能的改变?
谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域
掌阅科技对话式AI应用“阅爱聊”开启内测
昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”
AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会
当一个网站的内容被 AI 完全接管
生活垃圾智能分类机器人社区展“才能”,征求居民意见
应用生成式人工智能技术改善农业产业
微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
人工智能如何用于家庭安全
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利
Goodnotes 6推出,带来多项全新AI功能,让电子笔记更智能
6月14日《星空下的对话》 张朝阳陆川将畅聊人生、电影、心理学与AI
码刻 | 48小时Hackathon,源码见证新生代AI创新的发生
“一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报
专家解读国家网信办深度合成服务算法备案信息公告:不等于百度、阿里、腾讯等生成式AI产品获批
苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展
为了避免人工智能可能带来的灾难,我们要向核安全学习
解决导航“最后50米”难题 高德地图升级AR步行导航找终点功能