百川智能受邀出席英伟达GTC 2024并做主题演讲，分享大语言模型推理系统的研究进展 - 文章 - 开发者社区

NVIDIA英伟达GTC 2024大会于2024年3月18-21日在美国圣何塞盛大举办。作为AI时代的年度开发者大会，GTC聚集了来自全球的开发者、研究人员、创作者、IT决策者、企业领袖和各行业专家。

本次大会上，来自百川的技术专家聂小楠与来自NVIDIA的技术专家陈庾共同发表了题目为《使用统一推理架构和FP8加速端到端大语言模型系统》的技术演讲。

picture.image

大模型训练离不开算力、数据、人才三大要素。随着模型参数越来越大，上下文窗口越来越长，高昂的推理算力成本成为了阻碍大语言模型应用大规模落地的重要原因之一。这就对推理性能优化提出了更高要求。除了硬件算力的不断提升，推理架构和算法的优化对于提升推理效率至关重要。

基于此，百川智能采用了NVIDIA的软件生态系统，包括Triton Inference Server和TensorRT-LLM，以实现高效推理。并且采用了一系列优化技术来提升推理速度并降低资源消耗。

为了实现高效的推理效率，百川智能分析了常见大模型推理任务的性能瓶颈，内存墙是当下大模型推理的主要挑战。TensorRT-LLM的关键特性可以有效的打破内存墙，例如基于分页的KV缓存注意力机制、张量并行、基于FP8的量化、高性能融合算子等通用优化技术，结合百川智能团队在特定业务场景下的针对性优化，在降低成本的基础上也大大提高了推理速度。

picture.image

此外，针对Baichuan2-7B/13B、Baichuan2-192K、Baichuan 3等不同参数量、上下文窗口长度的模型和工作负载，百川智能采取了不同的优化策略，如针对长序列的Prefill上下文切分、FlashDecoding和组查询注意力等技术、针对千亿模型的投机采样、流水线并行等技术进一步改善用户体验和降低成本。

通过结合先进的硬件技术和创新的软件架构，百川智能成功地提升了大语言模型推理的性能和效率，不仅满足了实时交互和长文本生成的需求，而且为未来更大规模模型的部署和应用奠定了坚实的基础。

未来AI大模型在训练任务和推理任务都将产生巨量的算力需求。随着AI应用的不断深化，推理需求也将从云端拓展至边缘/终端。百川智能技术团队也将持续与全球诸多芯片厂商紧密合作，共同进行推理架构及算法优化。

目前，百川大模型已适配包括英伟达、英特尔、超微、高通、联发科技等国际领先计算平台及华为、寒武纪、摩尔线程、燧原科技等国产计算平台。

未来，百川智能计划将持续优化推理架构和算法为广大开发者和用户提供最好的通用大语言模型及超级应用。