刚刚!大厂围剿豆包手机,智谱掀桌开源

大模型智能应用AI开放平台

,在zhege

picture.image

刚刚,智谱开源了AutoGLM。

看到这一消息时,我头皮发麻,我敏锐的察觉到这是一个超级节点,新旧秩序的纷争,拉开了序幕。在这个节点下:

AutoGLM开源,标志着AI时代针对互联网时代的“反围剿”行动,打响了第一枪。

—— 也许不会有人为此事下此注脚,斗胆,我来。

各位可能还有些懵,我们先快速复盘一下背景。

就在前两天,字节跳动的“豆包”发布了一款AI原生概念手机。 大家可以通过下面这个视频了解它,豆包手机能一句话帮你点外卖、发微信、处理所有琐事:

但是,魔幻的一幕发生了。

“豆包手机”前脚刚展示了AI操作手机的黑科技,后脚就遭遇了国内APP巨头们的“混合双打”。 在这台手机上,银行APP弹错、微信提示风险、甚至直接封号。

仅仅发布4天后,豆包被迫宣布调整功能。

picture.image

APP封禁的理由是:为了安全和隐私。

大厂们的反应之快,令人咂舌。

理由都好找,但明眼人都知道,这是“入口之争”。 如果允许AI操作手机,未来就是谁控制了AI Agent(智能体),谁就架空了所有APP。

APP巨头们绝不允许自己的APP沦为单纯的“内容提供商”。

豆包手机肯定干不过一众厂商,就在我以为此事要告一段落,AI Phone又将沦入沉寂的时候。

智谱AI,突然开源了 Open-AutoGLM。

picture.image

如果你不知道什么是AutoGLM,你可以看这个视频:

总的来说:AutoGLM与豆包手机的技术路线不同,但都是让AI模拟人去操作手机,完成比如:京东购物、微信发消息等操作。

我第一时间去看了源代码,只有一个感觉:

智谱,这是直接“掀桌子”了。

01 把武器变成空气

为什么说这是“掀桌子”?

你看,大厂能封杀豆包手机,是因为豆包手机是一个“产品”。腾讯、阿里只要针对豆包手机的型号、特征进行屏蔽,豆包手机就动弹不得。

但智谱开源的,是“框架”。

Open-AutoGLM 不是一个你可以“封杀”的APP,它是一套代码,一套让任何懂点技术的开发者都能自己造出“豆包手机”能力的工具包。

我相信,不出三天,AI手机的部署教程应该就满天飞了。

这招太狠了。

巨头们可以封杀一家公司的产品,但他们能封杀千千万万个开发者吗?

当这项技术从“大厂核武器”变成“人手一把的瑞士军刀”时,那道精心构筑的“马奇诺防线”瞬间就失效了。

02 扒开代码:大厂为什么“防不住”?

很多朋友会问:大厂技术那么强,难道不能从技术上屏蔽吗?

能,但代价很大。

我扒了下Open-AutoGLM 的部分核心代码,发现智谱走了一条非常“底层”的路子。

第一,它用的不是“外挂”,是“开发者特权”。

传统的脚本外挂,喜欢用安卓的“无障碍服务”(Accessibility),这个很容易被APP检测到并封禁。 但 Open-AutoGLM 用的是 ADB(Android Debug Bridge)。 在代码中,我们可以清晰地看到AutoGLM是如何工作的:

  • 看屏幕: 它调用 screencap 指令截图,这原本是给开发者调试用的。

  • 点屏幕: 它调用 input tap 模拟手指点击。

  • 输文字: 它甚至内置了一个 ADB Keyboard 来输入文字,直接绕过输入法。

这就很尴尬了。ADB是安卓生态的基石,是给全球开发者调试设备用的。如果APP厂商为了防AI连ADB都禁了,那等于把整个安卓开发生态都给封了。

这是一个让巨头们左右为难的“阳谋”。

第二,它不是脚本,它是“大脑”。

以前的自动化脚本是死板的:“点击坐标(100, 200)”。如果APP改版了,按钮移到了(100, 300),脚本就废了。 但 Open-AutoGLM 是基于视觉大模型的。在代码里,我看到它完全模仿了人类的操作模式。

当你要它“打开小红书搜美食”时,它的后台日志是这样的:

👀 看一眼: 发现现在在桌面。

🧠 想一下: 我得先找到小红书图标。

👈 动一下: 点击图标。

👀 再看一眼: 进去了,现在要找搜索框...

它像人一样“看图说话、看图操作”。 只要人眼能看懂界面,AI就能操作。 这让APP厂商怎么防?难道把界面做得人也看不懂吗?

在代码库的 文件里,我看到了一份列表:

微信、QQ、淘宝、京东、拼多多、美团、抖音、快手、小红书、12306、高德地图...... 足足50多个国民级APP,代码里清楚地写着这些APP的包名映射。也就是说,你把代码跑起来,这50多个大厂APP,AI直接就能接管。

03 这次没法“甩锅”给安全隐私了

大厂封杀AI,最常用的理由就是:“AI会乱操作,不安全,泄露隐私。”

智谱显然预判了这一点。代码里有 一个很有意思的设计:敏感操作确认机制。 智谱把操作分了级。像点击、滑动这种常规操作,AI自己做主。但是!一旦涉及到:

  • 掏钱: 支付、转账

  • 隐私: 删好友、发消息

  • 账号: 改密码

代码会强制触发一个 确认回调。系统会弹窗问你:“主人,我要点支付了,你确认吗?”

而且,因为是开源项目,模型部署在本地,代码运行在本地,数据不出手机。

当数据都在用户自己手里,操作都要用户自己确认时,APP厂商的封杀理由就像一拳打在棉花上,自动失效了。

04 逼回谈判桌

智谱 Open-AutoGLM 的开源,是一个标志性事件。

它标志着AI Agent从“巨头互搏”进入了“人民战争”的阶段。 智谱把“掀桌子”的权力,交给了每一个开发者。

这不仅仅是一次开源,更是一次倒逼。 现在的版本可能还不够完美,但潘多拉的魔盒已经打开了。

当AI操作手机成为一种唾手可得的开源技术,任何形式的“封杀”都将变得毫无意义。

现在摆在大厂面前的,只剩下两条路:

要么,继续修高墙,直到被用户抛弃。

要么,乖乖坐回谈判桌,开放生态,与AI共存。

智谱这一掀桌,好戏才刚刚开始。是拥抱未来,还是死守旧时代的城墙?

留给APP大厂们思考的时间,不多了。

Open-AutoGLM地址:https://github.com/zai-org/Open-AutoGLM

往期推荐

K2 Thinking可能才是Agent的真正起点

国内首个视觉 Agentic 编程模型来了!

强主体弱镜头Seedance 1.0 Pro首尾帧测评

干货拆解|企业级AI 应用可以怎么做?

30分钟手把手从0训练一个ChatGPT模型

Nano Banana Pro中文/逻辑/写实全SOTA

30秒做出来的网页也能叫应用

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论