发布时间:2024-04-01
点击次数: 谷歌力推的JAX在最近的基准测试中性能已经超过Pytorch和TensorFlow,7项指标排名第一。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
而且测试并不是在JAX性能表现最好的TPU上完成的。

虽然现在在开发者中,Pytorch依然比Tensorflow更受欢迎。

但未来,也许有更多的大模型会基于JAX平台进行训练和运行。

最近,Keras团队为三个后端(TensorFlow、JAX、PyTorch)与原生PyTorch实现以及搭配TensorFlow的Keras 2进行了基准测试。
首先,他们为生成式和非生成式人工智能任务选择了一组主流的计算机视觉和自然语言处理模型:

对于模型的Keras版本,其采用了KerasCV和KerasNLP中已有的实现进行构建。而对于原生的PyTorch版本,则选择了网络上最流行的几个选项:
- 来自HuggingFace Transformers的BERT、Gemma、Mistral
- 来自HuggingFace Diffusers的StableDiffusion
- 来自Meta的SegmentAnything
他们将这组模型称作「Native PyTorch」,以便与使用PyTorch后端的Keras 3版本进行区分。
他们对所有基准测试都使用了合成数据,并在所有LLM训练和推理中使用了bfloat16精度,同时在所有LLM训练中使用了LoRA(微调)。
根据pytorch团队的建议,他们在原生pytorch实现中使用了torch.compile(model, mode="reduce-overhead")(由于不兼容,gemma和mistral训练除外)。
Machine Translation
聚合多个来源的AI翻译
49
查看详情
为了衡量开箱即用的性能,他们使用高级API(例如HuggingFace的Trainer()、标准PyTorch训练循环和Keras model.fit()),并尽可能减少配置。
所有基准测试均使用Google Cloud Compute Engine进行,配置为:一块拥有40GB显存的NVIDIA A100 GPU、12个虚拟CPU和85GB的主机内存。
表2显示了基准测试结果(以步/毫秒为单位)。每步都涉及对单个数据批次进行训练或预测。
结果是100步的平均值,但排除了第一个步,因为第一步包括了模型创建和编译,这会额外花费时间。
为了确保比较的公平性,对于相同的模型和任务(不论是训练还是推理)都使用相同的批大小。
然而,对于不同的模型和任务,由于它们的规模和架构有所不同,可根据需要调整数据批大小,从而避免因过大而导致内存溢出,或是批过小而导致GPU使用不足。
过小的批大小也会使PyTorch看起来较慢,因为会增加Python的开销。
对于大型语言模型(Gemma和Mistral),测试时也使用了相同的批处理大小,因为它们是相同类型的模型,具有类似数量的参数(7B)。
考虑到用户对单批文本生成的需求,也对批大小为1的文本生成情况进行了基准测试。

发现1
不存在「最优」后端。
Keras的三种后端各展所长,重要的是,就性能而言,并没有哪一个后端能够始终胜出。
选择哪个后端最快,往往取决于模型的架构。
这一点突出了选择不同框架以追求最佳性能的重要性。Keras 3可以帮助轻松切换后端,以便为模型找到最合适的选择。
发现2
Keras 3的性能普遍超过PyTorch的标准实现。
相对于原生PyTorch,Keras 3在吞吐量(步/毫秒)上有明显的提升。
特别是,在10个测试任务中,有5个的速度提升超过了50%。其中,最高更是达到了290%。

如果是100%,意味着K
eras 3的速度是PyTorch的2倍;如果是0%,则表示两者性能相当
发现3
Keras 3提供一流的「开箱即用」性能。
也就是,所有参与测试的Keras模型都未进行过任何优化。相比之下,使用原生PyTorch实现时,通常需要用户自行进行更多性能优化。
除了上面分享的数据,测试中还注意到在HuggingFace Diffusers的StableDiffusion推理功能上,从版本0.25.0升级到0.3.0时,性能提升超过了100%。
同样,在HuggingFace Transformers中,Gemma从4.38.1版本升级至4.38.2版本也显著提高了性能。
这些性能的提升凸显了HuggingFace在性能优化方面的专注和努力。
对于一些手动优化较少的模型,如SegmentAnything,则使用了研究作者提供的实现。在这种情况下,与Keras相比,性能差距比大多数其他模型更大。
这表明,Keras能够提供卓越的开箱即用性能,用户无需深入了解所有优化技巧即可享受到快速的模型运行速度。
发现4
Keras 3的表现始终优于Keras 2。
例如,SegmentAnything的推理速度提升了惊人的380%,StableDiffusion的训练处理速度提升了150%以上,BERT的训练处理速度也提升了100%以上。
这主要是因为Keras 2在某些情况下直接使用了更多的TensorFlow融合操作,而这可能对于XLA的编译并不是最佳选择。
值得注意的是,即使仅升级到Keras 3并继续使用TensorFlow后端,也能显著提升性能。

框架的性能在很大程度上取决于具体使用的模型。
Keras 3能够帮助为任务选择最快的框架,这种选择几乎总能超越Keras 2和PyTorch实现。
更为重要的是,Keras 3模型无需进行复杂的底层优化,即可提供卓越的开箱即用性能。
以上就是谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择的详细内容,更多请关注其它相关文章!
# 开源
# 乐清建设企业网站
# 东莞seo效果分析
# 玉溪抖音seo优化建议
# 营销推广半年计划方案
# 京山seo获客
# 无锡盐城网站优化
# 眉山网站建设公司电话
# 南阳附近网站优化师招聘
# seo 工作年纪
# 临沂抖音seo厂家
# 模型
# 中国
# 上海
# 升级到
# 丰田
# 中国科学院
# 即用
# 使用了
# 的是
# 后端
# 数据
相关栏目:
【
行业新闻62819 】
【
科技资讯67470 】
相关推荐:
创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现
中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式
亚马逊确认今年不举办re:MARS人工智能大会
特斯拉人形机器人将亮相 预计售价不超过15万元
“痴迷”元宇宙,魔珐科技想做什么?
人工智能赋能广西自然资源领域监测监管
Meta 开源 AI 语言模型 MusicGen,可将文本和旋律转化为完整乐曲
一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命
如布科技发布新产品AI口袋学习机S12
梦想实现!硬核科幻大片VR智能头盔即将问世
禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效
“技术+实践+生态”三箭齐发,京东方抢占物联网高地
人工智能产业协同创新中心:全产业链资源在这里汇聚
央广车联网亮相2025世界人工智能大会
OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
掌阅科技对话式AI应用“阅爱聊”开启内测
MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程
“黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”
先进技术在防止全球数据丢失方面的作用
中国联通发布图文AI大模型,可实现以文生图、视频剪辑
音乐制作元工具AudioCraft发布开源AI工具
沐曦首款AI推理GPU亮相:INT8算力达160TOPS!
有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名
午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|
学界业界大咖探讨:AI对数字艺术创新的推动力
从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级
争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
意大利警察拟用AI预测犯罪 该算法被指种族歧视严重
生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用
Intel酷睿Ultra发布会官宣!迈向全新的AI时代
网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手
联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临
云鲸发布全新的扫拖机器人J4系列
如何用户外电源给无人机实现持久续航
揭示经济学论文写作中提高效率与质量的AI助手应用策略
到中国科技馆体验“一滴油的奇妙旅行”,线上元宇宙展厅同步开启
70年前他本想逃避考试,却影响了整个互联网
微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品
本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!
字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA
机构:边缘AI或是当前预期差最大的AI方向
智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典
微软向美国政府提供GPT的大模型,安全性如何保证?
世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办
研究预测HPC支持的人工智能增长迅速
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高
Vision Pro头显重磅发布;苹果收购AR厂商Mira
微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课