400 128 6709

行业新闻

小而强大的模型盛火兴起:TinyLlama和LiteLlama成为热门选择

发布时间:2024-01-14点击次数:

当前,研究者开始关注小巧且高性能的小模型,尽管大家都在研究参数规模达到百亿甚至千亿级别的大模型。

小模型在边缘设备上有广泛应用,如智能手机、物联网设备和嵌入式系统。这些设备通常计算能力和存储空间有限,无法有效运行大型语言模型。因此,研究小型模型变得尤为重要。

接下来我们要介绍的这两项研究,可能满足你对小模型的需求。

TinyLlama-1.1B

新加坡科技设计大学(SUTD)的研究者最近发布了TinyLlama,这是一个参数量为11亿的语言模型,经过在大约3万亿个token上的预训练。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了


  • 论文地址:https://arxiv.org/pdf/2401.02385.pdf
  • 项目地址:https://github.com/jzhang38/TinyLlama/blob/main/README_zh-CN.md

TinyLlama是基于Llama 2架构和分词器的,这使得它可以轻松地与许多使用Llama的开源项目集成。此外,TinyLlama只有11亿个参数,体积小巧,非常适合那些需要限制计算和内存占用的应用程序。

该研究表示仅需 16 块 A100-40G 的 GPU,便可在 90 天内完成 TinyLlama 的训练。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

该项目从上线开始,持续受到关注,目前星标量达到 4.7K。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

TinyLlama 模型架构详细信息如下所示:

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

训练细节如下:

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

研究者表示,这项研究旨在挖掘使用较大数据集训练较小模型的潜力。他们重点探究在用远大于扩展定律(scaling law)建议的 token 数量进行训练时,较小模型的行为表现。

具体来说,该研究使用大约 3 万亿个 token 训练具有 1.1B 个参数的 Transformer (仅解码器)模型。据了解,这是第一次尝试使用如此大量的数据来训练具有 1B 参数的模型。

尽管规模相对较小,但 TinyLlama 在一系列下游任务中表现相当出色,它的性能显著优于同等大小的现有开源语言模型。具体来说,TinyLlama 在各种下游任务中都超越了 OPT-1.3B 和 Pythia1.4B 。

此外,TinyLlama 还用到了各种优化方法,如 flash attention 2、FSDP( Fully Sharded Data Parallel )、 xFormers 等。

在这些技术的加持下,TinyLlama 训练吞吐量达到了每 A100-40G GPU 每秒 24000 个 token。例如,TinyLlama-1.1B 模型对于 300B token 仅需要 3,456 A100 GPU 小时,而 Pythia 为 4,830 小时,MPT 为 7,920 小时。这显示了该研究优化的有效性以及在大规模模型训练中节省大量时间和资源的潜力。

TinyLlama 实现了 24k tokens / 秒 / A100 的训练速度,这个速度好比用户可以在 8 个 A100 上用 32 小时训练一个具有 11 亿参数、220 亿 token 的 chinchilla-optimial 的模型。同时,这些优化也大大减少了显存占用,用户可以把 11 亿参数的模型塞入 40GB 的 GPU 里面还能同时维持 16k tokens 的 per-gpu batch size。只需要把 batch size 改小一点, 你就可以在 RTX 3090/4090 上面训练 TinyLlama。 

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

TTSMaker TTSMaker

TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。

TTSMaker 2275 查看详情 TTSMaker

实验中,该研究主要关注具有纯解码器架构的语言模型,包含大约 10 亿个参数。具体来说,该研究将 TinyLlama 与 OPT-1.3B、Pythia-1.0B 和 Pythia-1.4B 进行了比较。

TinyLlama 在常识推理任务上的性能如下所示,可以看出 TinyLlama 在许多任务上都优于基线,并获得了最高的平均分数。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

此外,研究者在预训练期间跟踪了 TinyLlama 在常识推理基准上的准确率,如图 2 所示,TinyLlama 的性能随着计算资源的增加而提高,在大多数基准中超过了 Pythia-1.4B 的准确率。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

表 3 表明,与现有模型相比,TinyLlama 表现出了更好的问题解决能力。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

手快的网友已经开始整活了:运行效果出奇得好,在 GTX3060 上运行,能以 136 tok / 秒的速度运行。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

「确实是快!」

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了


小模型 LiteLlama

由于 TinyLlama 的发布,SLM(小型语言模型)开始引起广泛关注。德克萨斯工农大学的 Xiaotian Han 发布了 SLM-LiteLlama。它有 460M 参数,由 1T token 进行训练。这是对 Meta AI 的 LLaMa 2 的开源复刻版本,但模型规模显著缩小。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

项目地址:https://huggingface.co/ahxt/LiteLlama-460M-1T

LiteLlama-460M-1T 在 RedPajama 数据集上进行训练,并使用 GPT2Tokenizer 对文本进行 token 化。作者在 MMLU 任务上对该模型进行评估,结果如下图所示,在参数量大幅减少的情况下,LiteLlama-460M-1T 仍能取得与其他模型相媲美或更好的成绩。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

以下为该模型的性能表现,更详细内容请参阅:

https://www.php.cn/link/05ec1d748d9e3bbc975a057f7cd02fb6

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了

面对规模大幅缩小的 LiteLlama,有网友好奇,它是否能够在 4GB 的内存上运行。如果你也想知道,不如亲自试试看吧。

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了


以上就是小而强大的模型盛火兴起:TinyLlama和LiteLlama成为热门选择的详细内容,更多请关注其它相关文章!


# ai  # llama  # follow  # 起来了  # 开源  # 模型  # 建设网站分享生活软件  # 贵阳南明网站建设  # 百度云 seo教程  # 推广网站跳出率如何统计  # 西安市视频营销推广  # 助农营销推广计划怎么写  # 网站推广员招聘要求  # 广宗网站建设哪个好  # seo网页优化平台  # 营销号推广游戏怎么做  # 上海  # 用户可以  # 嵌入式系统  # 丰田  # 这是  # 较小  # 中国科学院  # 所示 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 《共同的演化》展览启幕,重新思考人类与人工智能关系  利用AI技术更好地发展农村电商  阿里达摩院向公众免费开放100项AI专利许可  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  AI工具助力公司实施每周4.5天工作制,带来巨大效益  人工智能改变网络安全和用户体验的三种方式  上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品  2025 年开发者必须知道的六个 AI 工具  马斯克发推讽刺人工智能:机器学习的本质就是统计  马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术  破解零碳产业园建设规范和成果评价难题  美图公司:Wink国内首发AI画面拓展功能  谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  甲骨文与Cohere合作为企业提供生成式人工智能服务  研究预测HPC支持的人工智能增长迅速  智能机器人正在彻底改变客户服务  AMD在AI方面奋起直追,与英伟达的差距缩小了吗?  AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者  应对算力挑战,亚马逊云科技发力AI基础设施建设  浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库  人工智能驱动艺术,打开达利的超现实想象  华为云天筹AI求解器荣获世界人工智能大会最高奖  360发布AI数字人广场,可同孙悟空、爱因斯坦等古今中外角色对话  西班牙小鲜肉*视频在网上疯传,本人发文澄清:是AI换脸的假视频!  “三夏”农忙保障用电,无人机高空巡视高压线  三星加速AR眼镜进程,预计明年上半年亮相  国网辉南供电:无人机空中巡检 全力护航端午佳节  亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会  中国联通发布图文AI大模型,可实现以文生图、视频剪辑  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  人工智能正在弥合认知和表达之间的鸿沟  谷歌新安卓机器人logo曝光:头更大了  华为小艺AI助手将实现强大的大模型能力  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  推动综合能源服务高质量发展  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  “图壤·阅读元宇宙”亮相北京国际图书博览会  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  联合国秘书长称支持建立全球人工智能监管机构  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  AI绘画,还需要懂数学?  日本演员工会提出AI立法建议 要求建立“声音肖像权”  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用” 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司