近日, CSGHub集成了 KTransformers框架 ,为开发者提供了一种 超低成本的大模型推理方案 ,使AI模型能够在低端硬件上高效运行,而无需依赖昂贵的高端GPU资源 。
KTransformers 推理引擎
KTransformers
是由清华大学 KVCache.AI 团队与 APPROACHING.AI 合作开发的开源项目,专注于为研究者和开发者提供本地部署的解决方案。 它旨在降低大模型推理的资源占用,提升易用性,并提供本地推理友好的环境,
让大模型推理更轻量
。KTransformers 兼容 Hugging Face Transformers API,并支持 OpenAI 和 Ollama 等标准 RESTful API,这使得开发者能够在消费级硬件上轻松运行大语言模型,而无需高端 GPU 集群或昂贵的云端服务。
技术案例展示
本地671B DeepSeek-Coder-V3/R1高效推理:仅使用14GB VRAM和382GB DRAM量化版部署Q4_K_M版本。
硬件需求:
-
- 显存(VRAM):14GB
- 内存(DRAM):382GB
- 部署环境
- 显存(VRAM):14GB
性能基准测试
|
指标
|
KTransformers 性能(tokens/s)
|
对比基线(llama.cpp 2×32核)
|
加速倍数
| | 预填充速度 | 54.21(32核) → 74.36(双路 2×32核) → 286.55(V0.3 AMX优化) | 10.31 | 27.79× | | 解码速度 | 8.73(32核) → 11.26(双路 2×32核) → 13.69(V0.3 专家选择) | 4.51 | 3.03× |
KTransformers 的 解码速度比 llama.cpp 提升高达 3.03 倍 。在 消费级桌面硬件(24GB VRAM)上实现 671B参数 的DeepSeek-Coder-V3/R1量化模型(Q4_K_M)全量推理,打破千亿级模型必须依赖高端GPU集群的传统限制。
KTransformers 的核心技术特性
异构计算:
支持 GPU 和 CPU 协同工作,灵活分配计算任务,充分利用硬件资源。
性能优化:
采用量化内核和稀疏注意力机制,显著提升长上下文推理效率,降低内存占用。
成本效益
: 能够在低成本硬件上运行大型模型,例如,只需 24GB VRAM 的显卡即可运行 DeepSeek-R1 等,大幅降低了硬件成本。
在TechNode “KTransformers enables DeepSeek-R1 with low-cost graphics card”
实测数据显示,搭载KTransformers的RTX 4090D(24GB显存)可流畅运行DeepSeek-R1-671B模型,
预处理速度达286 tokens/秒,生成速度14 tokens/秒,硬件成本低于 70,000 RMB,较传统A100/H100方案直降95%以上
。
KTransformers跑DeepSeek实测
单卡启动DeepSeek R1 需要的资源:
选择好模型后,一键启动
GPU Memory 只占用12G左右
将接口集成到CSGChat中,DeepSeek满血测试题实测
CSGHub 集成 KTransformers
CSGHub 作为 企业级大模型资产管理与应用平台 ,致力于为开发者和企业提供 一站式大模型管理、推理与部署解决方案 。 此次集成 KTransformers 后,用户可以直接在 CSGHub 平台上选择 KTransformers 作为推理引擎,享受 更快的推理速度、更低的资源消耗 ,同时保持对主流模型的兼容性。
OpenCSG社区用户可以直接在社区的专属实例页面使用 KTransformers 作为推理引擎,也可以自己下载部署 CSGHub,在本地环境中使用 KTransformers。
释放本地推理的强大潜力
KTransformers 让大模型推理不再受限于云计算平台。 通过 CSGHub 集成 KTransformers,核心优势:
成本优化: 利用 KTransformers 优化的内核,即使在消费级硬件上也能运行大型 LLM,显著降低硬件成本。
简化部署: CSGHub 提供简单易用的界面,让您轻松部署和管理基于 KTransformers 的模型,告别繁琐的配置。
安全性提升: 将敏感数据保留在本地环境中,降低云端推理带来的安全风险。
社区支持: OpenCSG 社区的用户可以在专属实例页面使用 KTransformers,也可以选择本地部署 CSGHub,根据自身需求定制环境。
CSGHub 多引擎支持:满足多样化推理需求
CSGHub 目前集成了 VLLM、SGLang、TGI、llama.cpp、KTransformers、MindIE 六大文生文推理引擎,涵盖了高吞吐量、高效缓存、低延迟本地推理、分布式部署等不同特点,满足各种模型推理需求。
| 推理引擎 | 主要特点 | 适用场景 | | --- | --- | --- | |
VLLM
|
高吞吐量、分页注意力管理、支持 FlashAttention、广泛硬件兼容
|
大规模生产级部署:适用于大规模推理任务,追求极致吞吐
| |
SGLang
|
高效后端优化、支持 RadixAttention、灵活的前端语言、适配多模态
|
大规模生产级部署:适用于复杂提示、多模态输入和链式调用
| |
TGI
|
生产级稳定性、支持流式输出、量化优化、多种 LLM 支持
|
高兼容性平台部署:适用于生产环境部署,确保低延迟推理
| |
llama.cpp
|
轻量级、适用于 CPU、离线本地运行、高效 C++ 实现
|
低资源轻量部署:适用于资源受限环境和隐私要求较高的场景
| |
KTransformers
|
低延迟高吞吐、优化 KV 缓存、兼容多个计算后端
|
超低资源部署:适用于高性能推理,如对话系统和长文本生成
| |
MindIE
|
专为 Ascend 设备优化、高效算子融合、低时延高吞吐
|
华为算力部署:适用于 Ascend AI 计算场景,如企业级推理和云端部署
|
如何选择合适的推理引擎?
- 追求极致 吞吐量和可扩展性 ? VLLM 和 SGLang 是大规模生产部署的首选。
- 需要 高稳定性和可靠性 ? TGI 是生产环境的最佳选择,确保低延迟推理。
- 算力资源有限且注重隐私? llama.cpp 适用于离线、CPU 环境,注重资源效率和数据安全。
- 希望 低成本、高性能 地运行 LLM? KTransformers 让你在普通硬件上也能获得出色的推理体验。
- 使用 华为 Ascend 平台? MindIE 专为 Ascend 设备优化,性能更上一层楼。
展望未来
OpenCSG社区将持续创新,引领 大模型推理新方向 。
CSGHub 将持续迭代优化 推理引擎生态 ,不断引入更多高效推理引擎,以全面适配多样化的应用场景。OpenCSG致力于降低大模型使用门槛,帮助开发者在不同算力环境下灵活部署模型,并提供高效、可定制的推理能力。我们的愿景是打造最强大、最通用的 LLM 应用基座,为客户提供 最具性价比的模型基础 。
参考链接
KTransformers开源项目:https://github.com/kvcache-ai/ktransformers
技术细节:https://zhuanlan.zhihu.com/p/714877271
TechNode文章:
CSGHub开源项目:https://github.com/OpenCSGs/CSGHub
OpenCSG官网:https://opencsg.com/
更多推荐