“ N卡大模型推理的生态越来越成熟了。。。可惜俺们私有化场景很多企业都要被迫用华为的卡了,真难受啊。另外就是后面几天要出差,不一定能日更了
https://arxiv.org/pdf/2401.08294.pdf
https://arxiv.org/pdf/2401.08294.pdf
这篇文章介绍了一个名为Inferflow的高效且高度可配置的推理引擎,专为大型语言模型(LLMs)设计。Inferflow的关键特点和能力包括:
- 模块化框架 :Inferflow采用了原子构建块和技术的模块化框架,使得它能够通过组合已知的技术来支持新模型,而无需编写新的源代码。这意味着用户可以通过修改配置文件中的几行来服务于大多数常见的Transformer模型。
- 量化 :Inferflow实现了2位、3位、3.5位、4位、5位、6位和8位的量化。特别地,文章提出了3.5位量化作为一种新的量化方案,它在3位和4位量化之间提供了一种权衡。
- 混合模型分区 :为了在多GPU推理中更好地平衡推理速度和吞吐量,Inferflow引入了混合模型分区策略。这包括按层分区(pipeline parallelism)和按张量分区(tensor parallelism)的策略。
- 动态批处理 :Inferflow支持动态批处理技术,允许模型在不等待之前输入序列的解码过程完成的情况下生成响应。
- 解码策略 :Inferflow支持多种快速解码策略,包括Top-k Sampling、Top-p Sampling、Frustratingly Simple Decoding (FSD)、Randomized FSD、Temperature Sampling、Typical Sampling、Mirostat Sampling、MinP Sampling和Tail Free Sampling (TFS)。
- 分组查询注意力 :为了减少KV缓存的内存消耗并提高推理速度,Inferflow支持分组查询注意力。当解码器的KV头数小于另一个超参数解码器头数时,分组查询注意力会自动启用。
- 推测解码 :Inferflow将很快集成推测解码技术,这是一种通过利用小型草案模型(draft model)的标记提案来加速大型目标LLM p(|x)的推理过程的技术。
文章还提到了Inferflow的一些其他特点,如广泛的文件格式支持、网络类型支持、GPU/CPU混合推理等。此外,Inferflow代码已开源