对话火山引擎谭待：坚持云优先，做好大模型时代的摆渡人 - 文章 - 开发者社区

picture.image

嘉宾 | 谭待

采访 | 杨文飞

撰稿 | 云昭

每当我们面对一个极有可能颠覆行业的技术热潮时，决策者对于未来的考量和判断，往往决定着企业的最终走向。

面对火爆异常的大模型市场，火山引擎并没有急于发布自己的通用大模型，而是选择跟早期出圈的多家 AI 科技公司及科研院所强强联合，推出大模型服务平台“火山方舟”。这被业界评价为“在大模型的航海时代拼命造船”、“做淘金路上的卖水者”。

业界的这番评价准确吗？火山引擎在大模型市场有哪些真正的意图？不久前我们有幸采访到火山引擎总裁谭待，听他讲讲这其中的取舍发展之道。

大模型：水到渠成的质变

如果放到一个较长的时间维度来看，大模型的火爆，既有水到渠成，也有量变引起质变。一个领域的质变往往来自于对早期方向的准确判断。

2017年，具有很强方法论的Transformer发布，包括BERT、GPT-1、2、3也都在之后相继问世。

彼时，OpenAI有一个很重要的技术判断：“scalling law”。在一定的计算量和数据量的情况下，模型的Loss是可以预测出来的。

然而，当时其实很多玩家去做尝试，但都没有发现这一点，所以人们会觉得“就是比以前好一些，但可能天花板就这样”，也就放弃了持续的投入。

但OpenAI看到了这个大的趋势，所以它义无反顾地投入了更多的资源来做这个事情。

接下来，外界看到OpenAI又去解决知识压缩、对齐人类偏好的问题，把预测下一个任务和对人的有用性、有害性，做好对齐。

OpenAI一直在沿着这条路行进，所以，“它既是一个循序渐进的过程，又是一个量变引起质变的过程。”

AIGC这条赛道也只是刚刚开始。放在几年前，很多大公司都会觉得这条路特别难，挑战特别大，而且短期内不会实现。但是现在情况不一样了，已经有人证明了这条路是可以走的，大家就不太担心“投资不确定性”的问题。现在可以看到越来越多的人涌入到这个赛道里面来做这个事情。

未来大模型的金字塔格局

就像现在去看几年前的Transformer一样，大模型的时代只是刚刚开始。而关于大模型市场的未来格局，谭待提到：

“在大模型领域，起步门槛陡然升高，以前两块GPU就能训练，现在至少一千块起步，这会对一些小规模的公司很不友好，甚至是艰难的。但垂直赛道则不然，是另外一个逻辑。”

首先，垂直并不意味着规模小，垂直领域的规模也很大。第二，在垂直行业，假如有一些数据或能力的壁垒，基于通用的模型去做自己的Finetune，也能够得到一个在自身垂直领域效果较好的模型。

有人把大模型和上层应用比作是“iOS和Android”，这有些不恰当，操作系统跟应用的界限是比较清晰的。大模型则不然，因为很多应用的能力将来都有可能直接将其内化到大模型中去，之前AIGC独角兽Jasper用的很多东西，现在基于底层模型就能干。

国内目前还处于先把基础大模型做好的阶段。“国内许多做大模型的公司都是火山引擎的客户，无论ToB、还是ToC，他们无一不是要把自己的模型能力给建起来。”

一些观点认为“大家不要先做模型，先做应用”。谭待看来，这是有一点危险的。因为，未来某个应用中的某些能力，说不好就会直接被模型内化掉，也就失去了竞争壁垒。

模型本身的基础能力完善之后，在落地应用上面还有很多的问题需要解决，比如训练的成本问题，包括将来更高的推理负载。再比如推理时，还要考虑到终端用户和商业逻辑，不管是个人付费，还是传统广告方式，收入提升都是有天花板的，要考虑应用所带来的信任和体验，是否足以覆盖掉成本。

对此谭待总结：现阶段还是把基础大模型做好的阶段，但未来在不同的领域，却未必要用最好或最强的模型，而是要根据所在场景，选择所擅长的、性价比最合适的模型。

在谭待看来，未来会形成金字塔样式的大模型格局——几个超强的模型，更多的能力中等但各有擅长的模型，以及更多在垂直领域做得比较好的模型。

未来的企业需要“多模型”

对于企业来说，长期来看会形成多模型的布局，在对应的领域内去找到最合适的组合策略，既可以自己研发训练、或基于已有的基础大模型来微调，也可能会直接去应用已有的模型，然后做Prompt Engineering。

当然，整个模型的生态有很多问题要解决，比如安全、信任的问题要解决，如何保证企业的Prompt的这些数据不会被模型的供应商拿走，同样怎样保证供应商的模型关键信息、技术不被泄露，有可能会出现第三方来做这个事情。

构筑信任墙至关重要，而火山引擎作为云平台，通过互信计算框架，基于安全和隐私保护问题，提供了包括安全沙箱、可信硬件及联邦学习方案，以此保证应用企业和模型供应商在互信的基础上进行合作。

此外，未来模型应用时，也会有类似于Copilot、Autopilot的工具或应用，只有将这些生态打通，才能让模型做更多的事情。“不管是模型的基础能力，还是落地应用，还是生态布局，都需要我们花更多的时间，投入更多的精力去推进。”

云还有许多难题要攻克

大模型时代，即便将自己定位成只做云，也会有非常多的挑战需要解决。因为整个大模型行业要做好、应用好，是需要多个角色一起参与进来的。大模型给各个生态层面都留足了空间，云厂商也是一样，“挑战和价值都是非常大的。”

谭待强调：“你不可能把所有事情全部做完，而且也不擅长。即便做了，行业和客户也不会因此而受益，那为什么还要去做？”

云是更大的一个范畴。相较大模型而言，云是更大的应用场景。在云上的时候，它提供的能力很多，有的是智能化的能力，有的是数据分析、统计的能力，有的是DevOps的能力。

云和大模型所需的核心能力是不一样的。所以，火山引擎的定位很清晰，就是把云这件事做好。其他领域，包括新领域会对云提出更多的新需求，那就携手一起解决这些问题。

坚持云优先，持续做好云才是关键

于火山引擎而言，把云这件事做好是最重要的事情。为什么要“云优先”？因为云是依赖于规模升级的产品，规模做大才能够提供更高的性价比、更低的成本，这样企业才能更好地进行数字化创新。

“正是基于此，许多人都会发现，火山引擎每一次发布会都会把性价比、成本放到突出的位置上，而且强调是通过技术手段去实现可持续的降本。”而要从本质上通过技术来训练好内功，就要做好克服极大困难的准备。

大模型也是一样的，最终成本太高，即使1000 Tokens一分钱，对于很多领域而言，成本还是很高，将来模型效果更好的时候，这个成本会更贵。如果不能把成本优化下来，就不大可能大规模地使用。

反过来，通过节约的成本去维护整个技术团队来持续做技术的优化。所以业务规模决定了资源规模，也决定了技术团队的规模。

好技术，总会有人买单

为什么许多优质的大模型厂商选择了火山引擎？据谭待介绍，绕不开两个事实。

第一，在ChatGPT推出之前，火山引擎就敏锐地看到了小模型正在往大模型迁移的趋势，因此就有了更多的算力储备。比如在自动驾驶领域，去年火山引擎就沉淀了许多客户，这些储备在今年得到了应用，这一点非常重要。

第二，算力并不是简单的GPU卡的供给，如何能让一千张、四千张，甚至将来超过一万张GPU卡稳定地去训练一个大模型出来，其实需要在服务器、网络，以及整个平台调度的层面都做非常多的事情。“除了算力以外，火山引擎是市面上少数能够帮客户长期稳定地去实现数千卡乃至未来上万卡规模训练的云服务商。”

任何技术都必须经由真实场景来打磨，火山引擎既然不自己做大模型，如何保证自己的大模型方案是经历过打磨的呢？

谭待在这里提到了火山引擎独特的“内外同源”，即同一个产品、同一个平台、同样的技术架构，它既是对内服务抖音的，也是对外服务火山引擎客户的。这样就可以通过内部庞大规模的资源和场景去打磨最靠谱的技术服务，而不是把外部的客户当作小白鼠。

ChatGPT之前，抖音内部其实已经有大量的推荐和广告的场景，模型的规模体量非常巨大，需要至少几千卡的资源，能够做到稳定地训练和推理。网络结构上局部也采用了Transformer等等。

这些经验积累到火山引擎的机器学习平台之后，价值巨大，能够帮助外部客户快速地完成冷启动过程，把模型跑好。

此外，火山引擎不仅能帮大模型厂商做好训练，也可以帮他们一起去搭建好服务各行各业的应用。这也是市场需求决定的，不管是Prompt Engineering、微调、还是基于开源来训练，都需要有一个平台帮他们把这些事解决，通过这个平台可以找到适合它各个场景的模型，同时把安全、成本、稳定性等等都优化好。

写在最后

大模型的热度依旧在持续沸腾，方向取舍往往决定着变革成败。洞察到更深层逻辑的人，可能会带给我们更多惊喜，且让我们拭目以待。

picture.image

对大模型感兴趣的同学，欢迎了解火山方舟更多详情：https://www.volcengine.com/product/ark