发现一个比AutoGLM更小的GUI模型,仅4B参数,附实测和部署教程

大模型

大家好,我是刘聪NLP。

昨天分享完智谱的AutoGLM,就有好友凌晨1点多给我发消息,说阶跃也有一个GUI的模型,而且只有4B。

picture.image

我看了一下,是GELab-Zero-4B-preview模型,这个模型我自己台式机4070super 12G就能部署。相较于AutoGLM来说,资源就少了很多。

同时,还可以量化,进一步减少资源,但是部署到手机上,端侧推理的话,速度应该还是不行。

  
Github:https://github.com/stepfun-ai/gelab-zero  
HF:https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview  

PS:对4B大小是不是很敏感,没错,是基于Qwen3-VL-4B-Instruct增量训练的。

然后整个Agent控制手机的原理也跟AutoGLM原理一致,也是通过截图识别元素、ADB来控制。

直接上测试结果,

昨天AutoGLM没有成功的蚂蚁森林的能量收集任务,经过7min的等待,GELab-Zero-4B完成了。但是,应该还是因为模型太小,还有就是页面有个“1t”能量的干扰,中间重复了很多次,做了一些错误的决策,不够最后还是把能量球全部收集成功了,

中等任务:打开小红书,发一篇大字报内容,阶跃4B的GUI模型也这么强吗?而且比AutoGLM-9B小一半。

完全自动发布,

picture.image

其实这个任务还是蛮简单的,并不复杂。

高阶任务:打开12306,帮我订一张本周六从苏州到南京的高铁票,时间是早上9点左右

可以看出,GELab-Zero-4B每次执行的速度是很快的,但是相较于AutoGLM来说,执行的轮数会更多一些。

我整体测试下来,

  • 4B很强,很nb
  • 这个模型不比9B的autoglm差,甚至一些复杂任务处理的更好
  • 模型太小,一些过于复杂的任务会陷入循环
  • 整体执行的步骤会普遍偏多
  • 资源消耗更少,但速度上来看,还是没法部署到端侧

然后跟AutoGLM一样,GELab-Zero的Github写的也是十分详细,基本上跟走从头走一边是没有啥问题的。

昨天AutoGLM部署流程中的,vllm模型部署、ADB安装部分是一样的,直接可以服用。

因为这个模型我是在本地台式机部署的,就用ollama给大家部署一下。

ollama部署,

先去ollama官网下载对应安装包,我是windows电脑,所以直接下载windows版本

https://ollama.com/download

picture.image

下载完成后,双击OllamaSetup.exe,点击Install后,开始安装,

picture.image

PS:Ollama默认安装在C盘,且不支持自定义安装路径。

安装后,配置启动程序到Path环境变量,

C:\Users\admin\AppData\Local\Programs\Ollama

按键windows+r打开运行,输入sysdm.cpl,回车;高级->环境变量->系统变量->Path

picture.image

然后命令行,查看ollama版本

  
ollama --version  

picture.image

下载模型,依旧modelscope,真的很快

  
modelscope download --model stepfun-ai/GELab-Zero-4B-preview --local\_dir ./GELab-Zero-4B-preview  

然后进入到下载的GELab-Zero-4B-preview文件夹中,创建ollama文件

  
ollama create gelab-zero-4b -f Modelfile  

picture.image

当然这里,如果需要进行模型量化,这样模型占用资源会更小,但是也会有精度的损失。

  
# int8量化  
ollama create -q q8\_0 gelab-zero-4b  
# int4量化  
ollama create -q Q4\_K\_M gelab-zero-4b  

启动ollama服务

  
 ollama serve  

picture.image

通过postman请求

picture.image

接下来就是PC端和手机端ADB的按照, 就看AutoGLM真好玩,附保姆级教程的这一部分吧,是一模一样的。

不过这个GELab-Zero项目里,输入法不用选择“ADB Keyboard”。

然后把项目clone到你的本地,就可以启动你的服务了,

  
python examples/run\_single\_task.py "打开微信,给老婆大人发helloword"  

缺啥包装啥包就行,你也可以直接requirements文件先安装

  
pip install -r requirements.txt  

记得几个地方可以修改,

  • model_config.yaml文件的api_base可以修改,默认ollama的端口是11434,如果你改了,就改这部分的url
  • examples/run_single_task.py文件的local_model_config字典可以修改,这里是模型参数,比如我用的model_name是gelab-zero-4b,官方默认是gelab-zero-4b-preview

最一开始的webui是我一句话vibe出来的,不想看命令行,看页面的,

我vibe的代码,后台私信发gelab-zero获取。

最后,

gelab-zero-4b这个模型算是又打破了我的认知,

模型效果也是杠杠的,简单中等的任务执行的都很好,

复杂任务,有时候会陷入循环,这还是有待改进,

毕竟模型参数只有4B,

但是一些场景上,真不比9b的autoglm差,甚至执行的更好

所以对手机上部署模型,

搓豆包手机的信息越来越足了,哈哈哈

端侧,未来可期~

PS:都看到这里,来个点赞在看关注 吧。 您的支持是我坚持的最大动力!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论