本地太卡?教你用 Ollama 云模型无压力运行 120B 模型

大模型云通信数据库管理服务

picture.image

关注 “AI 工具派”

探索最新 AI 工具,发现 AI 带来的无限可能性!

嗨,我是Chris,一个专注于探索各类 AI工具的博主,与大家一起发掘 AI 的潜力。我正在开发WiseMindA,期待它能成为提升学习效率的宝藏。

本地显卡不够、显存爆了、加载模型半天动不了?

Ollama 最近的「云模型」功能,可能正好能帮助到你。

一、Ollama 云模型是什么

如果你用过 Ollama,大概率是因为它能在本地跑各种大模型:

下载一个模型,用 ollama run 一敲,就能聊起来。

但问题也来了—— 模型太大了,本地电脑吃不消, 显存不够、风扇狂转、系统一卡一卡的。

picture.image

Ollama 新推出的云模型(Cloud Models)就是为了解决这个问题:

你还是用熟悉的命令,但模型不是在你电脑上跑的,而是在 Ollama 的云端跑完后,把结果传回来。

也就是说,你能像本地一样用 Ollama,却能跑更大的模型。

二、本地模式 vs 云模式

其实 Ollama 现在有两种运行方式:

模式本地模型(local)云模型(cloud)
运行位置
在你电脑上跑
在 Ollama 云端跑
算力需求
高,需要显卡支持
几乎不占本地资源
延迟
很低
会有点网络延迟
模型体积
受限于你电脑性能
想多大有多大(甚至上百 B)
隐私性
完全本地
数据需上传云端
成本
免费(除了电费)
可能会按调用计费

一句话总结:

👉 本地模型 :快,但受限于设备。

👉 云模型 :灵活,不挑硬件。

三、支持的云模型

目前 Ollama 云端能用的模型都带 -cloud 后缀,目前仅支持:

  • deepseek-v3.1:671b-cloud
  • gpt-oss:120b-cloud
  • kimi-k2:1t-cloud
  • qwen3-coder:480b-cloud

这些名字后面都有个“-cloud”,代表模型在云端运行。

这些模型都是参数体量超大的模型,但你本地照样能用。

四、如何使用

其实用起来很简单,分三步就行 👇

步骤 1:登录账号

先登录 Ollama:


    
ollama signin  

picture.image

这里需要注意,需要把上面中的 https://ollama.com/connect?name=.....链接复制到浏览器打开,然后登录你的账号,确认授权:

picture.image

或者使用 API 时,把 Key 设置好:


    
export OLLAMA\_API\_KEY=你的密钥  

获取 API Key: https://ollama.com/settings/keys

picture.image

步骤 2:直接运行云模型

然后直接在终端运行模型,比如:


    
ollama run gpt-oss:120b-cloud  

和本地模型几乎一样,只是这次在云端跑。

picture.image

步骤 3:用 API 调用(比如 Python)

想在自己的项目里接入也行。

示例代码如下:


    
import os  
from ollama import Client  
  
client = Client(  
    host="https://ollama.com",  
    headers={'Authorization': 'Bearer ' + os.environ.get('OLLAMA\_API\_KEY')}  
)  
  
messages = [{'role': 'user', 'content': '为什么天空是蓝色的?'}]  
  
for part in client.chat('gpt-oss:120b', messages=messages, stream=True):  
    print(part['message']['content'], end='', flush=True)  

就这样,你的本地脚本就能直接调用云端模型。

五、什么时候使用

Chris 这里帮你总结下:

用本地模型的情况:

  • 模型小,电脑能跑
  • 想完全离线
  • 不想上传任何数据

用云模型的情况:

  • 想跑大模型,电脑带不动
  • 想省事,不折腾驱动和显卡
  • 不介意稍微的网络延迟

很多人会两者结合:比如小任务用本地模型,大任务临时切云模型。更多介绍可以查看官网:https://docs.ollama.com/cloud

六、使用注意

虽然云模型很方便,但也有一些要注意的:

  1. 网络稳定很重要 :网络波动可能让调用中断,记得加重试机制。
  2. API Key 别泄露 :否则别人可能白嫖你的额度。
  3. 费用问题 :官方现在还在预览期,可能未来会有计费。
  4. 隐私数据要小心 :上传前记得脱敏。
  5. 第一次会慢点 :云端模型有冷启动时间,多等几秒。

七、实战建议:从本地切换到云模型

假设你原本这样写的:


    
ollama run gpt-oss:20b  

现在只要改成:


    
ollama run gpt-oss:120b-cloud  

或者在代码里做个小判断 👇


    
model = "gpt-oss:120b-cloud" if use\_cloud else "gpt-oss:20b"  

这样就能随时切换运行模式,想本地跑就本地跑,想云跑就云跑。开发调试更灵活,也方便部署。

另外,在 Chris 开发的 AI 本地知识库软件 WiseMindAI 上,也即将支持 Ollama Cloud 模型了,预计 10 月底 v0.2.5 版本上线:

picture.image

八、收费情况

Ollama 的云服务包含小时和每日限制,以避免容量问题。目前支持免费和专业版订阅(20 美元),只是免费版的每日限制,官方还没有确定,目前可以免费使用:

picture.image

总结

Ollama 的云模型功能,可以说是「让你不买显卡,也能玩大模型 」,使用的时候:

  • 调用方式跟本地一模一样;

  • 不占本地算力;

  • 能跑超大模型;

  • 而且适合个人开发者和轻量部署。

近期推荐

picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
大规模高性能计算集群优化实践
随着机器学习的发展,数据量和训练模型都有越来越大的趋势,这对基础设施有了更高的要求,包括硬件、网络架构等。本次分享主要介绍火山引擎支撑大规模高性能计算集群的架构和优化实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论