Qwen,永远不会缺席!百万上下文模型开源

大模型向量数据库机器学习

今天,Qwen2.5-1M模型开源。

2个尺寸,7B & 14B。开源并且,并结合vllm,集成了稀疏注意力机制,推理速度提升3到7倍。

picture.image

14B模型的大海捞针获得了全绿的成绩,7B仅少量错误

picture.image

长度提升的同时,短序列的成绩依然保持优异!

picture.image

训练策略: 逐步变长到256K。 然后使用长度外推,外推用到了DCA的策略,

picture.image

DCA通过将大的相对位置,按chunk分组,映射为较小的值picture.image

最后是硬件依赖:

对于处理 1M 长度的序列:

  • Qwen2.5-7B-Instruct-1M:至少需要 120GB 显存(多 GPU 总和)。
  • Qwen2.5-14B-Instruct-1M:至少需要 320GB 显存(多 GPU 总和)。

如果 GPU 显存不满足以上要求,仍然可以使用 Qwen2.5-1M 进行较短任务的处理。

最后,祝大家新年快乐!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动大数据容器化构建与落地实践
随着字节跳动旗下业务的快速发展,数据急剧膨胀,原有的大数据架构在面临日趋复杂的业务需求时逐渐显现疲态。而伴随着大数据架构向云原生演进的行业趋势,字节跳动也对大数据体系进行了云原生改造。本次分享将详细介绍字节跳动大数据容器化的演进与实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论