【实测】单卡跑满血版DeepSeek|CSGHub集成KTransformers

大模型向量数据库容器

近日, CSGHub集成了 KTransformers框架 ,为开发者提供了一种 超低成本的大模型推理方案 ,使AI模型能够在低端硬件上高效运行,而无需依赖昂贵的高端GPU资源 。

KTransformers 推理引擎

picture.image

KTransformers

是由清华大学 KVCache.AI 团队与 APPROACHING.AI 合作开发的开源项目,专注于为研究者和开发者提供本地部署的解决方案。 它旨在降低大模型推理的资源占用,提升易用性,并提供本地推理友好的环境,

让大模型推理更轻量

。KTransformers 兼容 Hugging Face Transformers API,并支持 OpenAI 和 Ollama 等标准 RESTful API,这使得开发者能够在消费级硬件上轻松运行大语言模型,而无需高端 GPU 集群或昂贵的云端服务。

技术案例展示

本地671B DeepSeek-Coder-V3/R1高效推理:仅使用14GB VRAM和382GB DRAM量化版部署Q4_K_M版本。

硬件需求:

    • 显存(VRAM):14GB
      • 内存(DRAM):382GB
      • 部署环境
      :支持桌面级硬件(无需 GPU 集群)

性能基准测试

|

指标

|

KTransformers 性能(tokens/s)

|

对比基线(llama.cpp 2×32核)

|

加速倍数

| | 预填充速度 | 54.21(32核) → 74.36(双路 2×32核) → 286.55(V0.3 AMX优化) | 10.31 | 27.79× | | 解码速度 | 8.73(32核) → 11.26(双路 2×32核) → 13.69(V0.3 专家选择) | 4.51 | 3.03× |

KTransformers 的 解码速度比 llama.cpp 提升高达 3.03 。在 消费级桌面硬件(24GB VRAM)上实现 671B参数 的DeepSeek-Coder-V3/R1量化模型(Q4_K_M)全量推理,打破千亿级模型必须依赖高端GPU集群的传统限制。

KTransformers 的核心技术特性

异构计算:

支持 GPU 和 CPU 协同工作,灵活分配计算任务,充分利用硬件资源。

性能优化:

采用量化内核和稀疏注意力机制,显著提升长上下文推理效率,降低内存占用。

成本效益

: 能够在低成本硬件上运行大型模型,例如,只需 24GB VRAM 的显卡即可运行 DeepSeek-R1 等,大幅降低了硬件成本。

picture.image

在TechNode “KTransformers enables DeepSeek-R1 with low-cost graphics card”

实测数据显示,搭载KTransformers的RTX 4090D(24GB显存)可流畅运行DeepSeek-R1-671B模型,

预处理速度达286 tokens/秒,生成速度14 tokens/秒,硬件成本低于 70,000 RMB,较传统A100/H100方案直降95%以上

KTransformers跑DeepSeek实测

单卡启动DeepSeek R1 需要的资源:

picture.image

选择好模型后,一键启动

picture.image

GPU Memory 只占用12G左右

picture.image

将接口集成到CSGChat中,‌DeepSeek满血测试题实测

picture.image

CSGHub 集成 KTransformers

CSGHub 作为 企业级大模型资产管理与应用平台 ,致力于为开发者和企业提供 一站式大模型管理、推理与部署解决方案 。 此次集成 KTransformers 后,用户可以直接在 CSGHub 平台上选择 KTransformers 作为推理引擎,享受 更快的推理速度、更低的资源消耗 ,同时保持对主流模型的兼容性。

OpenCSG社区用户可以直接在社区的专属实例页面使用 KTransformers 作为推理引擎,也可以自己下载部署 CSGHub,在本地环境中使用 KTransformers。

释放本地推理的强大潜力

KTransformers 让大模型推理不再受限于云计算平台。 通过 CSGHub 集成 KTransformers,核心优势:

成本优化: 利用 KTransformers 优化的内核,即使在消费级硬件上也能运行大型 LLM,显著降低硬件成本。

简化部署: CSGHub 提供简单易用的界面,让您轻松部署和管理基于 KTransformers 的模型,告别繁琐的配置。

安全性提升: 将敏感数据保留在本地环境中,降低云端推理带来的安全风险。

社区支持: OpenCSG 社区的用户可以在专属实例页面使用 KTransformers,也可以选择本地部署 CSGHub,根据自身需求定制环境。

picture.image

CSGHub 多引擎支持:满足多样化推理需求

CSGHub 目前集成了 VLLM、SGLang、TGI、llama.cpp、KTransformers、MindIE 六大文生文推理引擎,涵盖了高吞吐量、高效缓存、低延迟本地推理、分布式部署等不同特点,满足各种模型推理需求。

| 推理引擎 | 主要特点 | 适用场景 | | --- | --- | --- | |

VLLM

|

高吞吐量、分页注意力管理、支持 FlashAttention、广泛硬件兼容

|

大规模生产级部署:适用于大规模推理任务,追求极致吞吐

| |

SGLang

|

高效后端优化、支持 RadixAttention、灵活的前端语言、适配多模态

|

大规模生产级部署:适用于复杂提示、多模态输入和链式调用

| |

TGI

|

生产级稳定性、支持流式输出、量化优化、多种 LLM 支持

|

高兼容性平台部署:适用于生产环境部署,确保低延迟推理

| |

llama.cpp

|

轻量级、适用于 CPU、离线本地运行、高效 C++ 实现

|

低资源轻量部署:适用于资源受限环境和隐私要求较高的场景

| |

KTransformers

|

低延迟高吞吐、优化 KV 缓存、兼容多个计算后端

|

超低资源部署:适用于高性能推理,如对话系统和长文本生成

| |

MindIE

|

专为 Ascend 设备优化、高效算子融合、低时延高吞吐

|

华为算力部署:适用于 Ascend AI 计算场景,如企业级推理和云端部署

|

如何选择合适的推理引擎?

  1. 追求极致 吞吐量和可扩展性 ? VLLM 和 SGLang 是大规模生产部署的首选。
  2. 需要 高稳定性和可靠性 ? TGI 是生产环境的最佳选择,确保低延迟推理。
  3. 算力资源有限且注重隐私? llama.cpp 适用于离线、CPU 环境,注重资源效率和数据安全。
  4. 希望 低成本、高性能 地运行 LLM? KTransformers 让你在普通硬件上也能获得出色的推理体验。
  5. 使用 华为 Ascend 平台? MindIE 专为 Ascend 设备优化,性能更上一层楼。

展望未来

OpenCSG社区将持续创新,引领 大模型推理新方向

CSGHub 将持续迭代优化 推理引擎生态 ,不断引入更多高效推理引擎,以全面适配多样化的应用场景。OpenCSG致力于降低大模型使用门槛,帮助开发者在不同算力环境下灵活部署模型,并提供高效、可定制的推理能力。我们的愿景是打造最强大、最通用的 LLM 应用基座,为客户提供 最具性价比的模型基础

参考链接

‍‍‍‍

KTransformers开源项目:https://github.com/kvcache-ai/ktransformers

技术细节:https://zhuanlan.zhihu.com/p/714877271

TechNode文章:

https://technode.com/2025/02/17/tsinghua-universitys-ktransformers-enables-full-powered-deepseek-r1-with-low-cost-graphics-card/

CSGHub开源项目:https://github.com/OpenCSGs/CSGHub

OpenCSG官网:https://opencsg.com/


更多推荐

picture.image

picture.image

picture.image


picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论