Meta 发布 Llama 3.2 1B和3B版本:推理速度翻倍,模型更轻

大模型

24日,Meta 发布了全新的量化版 Llama 3.2 模型1B和3B版本。该模型在推理速度上提升 2-4 倍,模型大小减少 56%,内存占用降低 41%,显著优化了性能。

picture.image

模型采用了先进的量化技术,包括量化感知训练(Quantization-Aware Training)和 SpinQuant 后训练量化方法。前者确保了模型精度,后者提升了便携性,两者结合,既保证了模型质量与安全性,又优化了在资源受限设备上的部署。

picture.image

picture.image

picture.image

新模型特别适用于移动设备和边缘计算。通过与 ARM 、MediaTek 和Qualcomm 等合作,已准备好在更多移动 CPU 上部署,未来还将利用 NPUs 进一步提升性能。

新模型的发布为开发者提供了高效、轻量化的 AI 解决方案,将会带来边缘以及移动场景应用的发展。从最近趋势来看,端侧大模已成为了大模型发展的又一技术方向。

相关阅读:Transformers.js v3震撼发布:WebGPU加速、120种架构支持,开发者必备神器!

后台回复“入群”进群讨论。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论