大模型在手机端应用的观察笔记

技术

从今年开始,各大手机厂商都开始搭载大模型。海外,三星和苹果也传出来了自研大模型的信息。

在当今年代,我很难描述大模型究竟是革命性的变革,还是仅仅是形态的进化,但如果你用长期用下来,你应该会喜欢它。

首先是我的观点:手机端大模型是文明的。

大模型应该是未来互联网的“基础设施”,类似当前的搜索工具(百度、Google)。

我不认为大模型的性能是反对的理由,百度搜索结果虽然不如Google,但也在大部分场合够用。

因此,让更多人接触到基础工具,是一种普惠性的结果,就像让所有人用上智能手机一样,让更多人可以接触到最新的科技成果,甭管是千元级还是iPhone 15 Pro Max,相较于传统功能机,其性能都是天翻地覆的。

我认为,可能在某一个时间点上——例如苹果搭载大模型的手机发布,或是内嵌大模型手机渗透率超过17%——消费者会突然发现,手机助手变聪明了。

于是,大模型才真正成为手机上的基础设施,甚至成为换机的重要选择。

——要知道,微信从0到第一亿个用户,也花了一年多(433天)。

第一款正式发布内嵌大模型应用的手机vivo X100,从上市到现在也才不到两个月。

我们需要有一点耐心。

当前,大模型应用存在矛盾。

一方面,大模型应该是基础设施,这也就意味着它的应用需求就会像水电一样自然。

但另一方面,大模型对算力的消耗,尤其是几百亿上千亿级别大模型对算力的消耗,让它的成本和现在的搜索相比,是数量级的增长。

财大气粗如微软也扛不住算力的消耗,OpenAI数次暂停注册,更不用说国内的这些企业们,在NV的卡被卡后,这块的成本又往上涨了不少。以至于阿里云暂停分拆上市,一部分原因就是买不到卡导致预期收入可能受限。

也因此,手机的端侧大模型可以分摊不少云端算力成本,某种意义上相当于买断制,也能让大模型的应用更普及。

能力:1-7B端侧,7-200B级别云侧

7B左右规模的模型对于手机端是更方便的。

受限于手机性能和内存容量/速度,6-7b 模型在int4量化下,手机大概能以超过10token/s的速度跑起来大模型,而如果再增加一些,比如到13B,手机上目前也就是发哥9300经过模型压缩后能达到5GB内存占用,如果再考虑算力和内存速度,运行起来也就是堪堪够用。

对于文本总结等需要长输入/输出的功能,手机上7B模型也会不太够用,目前几家厂商不约而同的选择了1B左右的模型,应用于文本总结与提取。

此外,作图类的模型目前手机上通常也采用1B左右级别的大模型。

在云端,平衡成本和规模更重要。

各家手机厂商自己现存的卡应该是难以满足大模型对算力的需求,需要外购云服务,进一步推高成本。

而用户上,老人、孩子,他们更习惯自然语言交互,对于大模型的需求可能更高一些。

但他们也对手机增值服务贡献偏低,用的手机均价也偏低,商业闭环能不能完成又是一件事。

付费增值服务短期内可能也不太可行,国内的iCloud买的人都不算多,更不用说大模型功能了。

那么云端的定位应该是什么?

普适性让所有人都用上大模型-解决端侧7B不能解决的问题,都是有可能的。

也因此,云端可能需要7b级别的模型用来应对用户的日常自然语言对话需求,token成本更低,也能满足几乎所有手机的需求。毕竟GPT3.5 turbo也就是一个20B的模型。

picture.image

也 需要70B到200b这种规模,满足更复杂的需求。

但具体怎么分配,可能还需要用户和厂商们再慢慢实验配合。

对手机硬件影响?

运行内存

会进一步增大么?

7B级别的大模型int4量化,在手机上运行需要吃掉3.5G-4G左右的内存,如果大模型要常驻后台,意味着手机可用内存会减少4G左右,外加手机常驻服务会吃掉4G左右,8G内存就显然不够了,12G可能是未来的起步内存,而16G-24G是端侧大模型更好的选择。

更大的内存呢?可能会有点困难。毕竟成本摆在那。

更高主频的内存

目前手机大模型Token生成速度基本都是被内存带宽卡住了,更高的带宽将带来更高速的Token生成速度。

例如vivo搭载了LPDDR5T,其Token生成速度基本与内存主频同步上涨。

SoC?

目前暂时没有8Gen3和9300的芯片面积分析,根据目测,这两颗SoC面积可能都在150平方毫米左右,问题就来了,做Transformer硬件加速会需要多少面积?

这部分面积对芯片成本的增加大概有多少,MTK和高通会不会考虑这部分制造?未来会不会在中端SoC上也增加这部分面积?

——MTK的天玑8300号称支持10b级别的大模型本地运行,倒是也够了。

picture.image

总之,想要跑起来端侧大模型,内存和SoC成本一定会上升。

但上升幅度我觉得应该是可以接受的。

先后顺序?

各厂能力上应该不存在代差级别的能力差异

华为综合实力最强 ,云端算力应该是最强的没得跑,但云端算力还得分给自动驾驶算法用,端侧还得迭代硬件。

vivo最快,确实是科技向善了。 很多人可能不知道手机上第一个合规大模型代表着什么。这涉及到后面巨量的数据清洗和处理,很多大模型应用仍处于内测期的原因之一就是没清洗好数据,暂时还没实现合规。体验我也写了好几篇,泥萌可以看看。

OPPO也不慢 ,2021年就跟智谱华章的兄弟单位智源研究院合作了,这块内容开展得很早。截至这篇文章发出来前,我还是有保密协议的,体验会在后面陆续发出来。

荣耀做得也不错 ,之前的一段视频里面展现了图生视频的能力——尽管这两天的发布会上这个能力还没发布。以及跟手机嵌入的比较深。不过我也没拿到测试样机,没法告诉你们体验怎么样。

picture.image

小米的想象空间更大 。尽管小米是第一个宣布1B级别的大模型在手机上跑通的,但目前小爱的大模型还在内测,公布的进展不多,可能是军军比较关心车那边。大模型能更好理解语义,和小米这套智能家居的联动起来会很有意思。

苹果应该也快了。 近期公布了Ferret(雪貂)的多模态 LLM的论文,有7B和13B两个,对图像的语义分割和内存压缩做的不错——毕竟苹果手机内存是真的不大,但财大气粗如苹果,跑在云端也不是不行。

——以及,我认为,国内这些厂商们对于中文的语料筛选和清洗的能力更好一些,很可能在苹果大模型问世后,对于中文的语义理解弱于国内手机厂商们。

存在问题:

1、模型幻觉:

简单点说就是大模型胡说八道的问题还没有完全解决,并且在可见的短期未来中也不太可能解决。传统AI助手遇到不懂的问题,解决方案是不懂,或返回搜索结果,但如果大模型接入AI助手,可能会造成大量的不信任问题——毕竟能接受大模型幻觉问题的人还是懂大模型的小部分人。

甚至简单点的搜索聚合都有问题——不管是bing还是百度还是Google,目前他们用大模型提取搜索内容的简单回答,也存在大量不准确的问题。

2、道德与安全:

这方面就不细说了,整体来说需要各方厂商做好数据传输安全、数据清洗整理的工作。

3、算力瓶颈

由于众所周知的原因,手机厂商们作为正规企业,已经不能买到新的A100/H100/A800/H800了。

而国内的计算卡产能也相对有限,如果大模型大规模铺开后,可能会遇上算力不够的问题。

最后一点点个人想说的:

知乎是当前大模型的开发者和普通用户最好的链接平台之一,不仅沉淀了大量内容,也积累了大量用户和示例。

——虽然很多内容我也不大懂,毕竟我一个学财经出身的,确实没啥基础,已经很尽力在学了。

所以,希望其他知乎的开发者们可以多聊聊,多科普科普,让更多的普通人能看懂这是什么。

也希望各位大模型开发者对手机厂商们的宽容一点。

各家手机厂商相较于业内最前沿技术肯定是有差距的,但毕竟现在大模型的重点,不在于模型搭建,而是内容的调教,这些也相对来说是手机厂商们的强项。

程序员“文人相轻”是个传统,但……

——把盘子做大一点,未来跳槽也好有地方去,工资也容易涨,不是嘛。

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论