关于生成式AI与大模型在企业端的应用:决策者应该了解的8个重要事实

大模型数据安全机器学习

点个蓝字关注我们

基于大模型的生成式AI正以前所未有的速度重塑各行各业的生产方式和创新路径,展现出了强大的潜力。作为企业决策者必须意识到,AI不仅仅是工具,更是一种战略资产甚至企业文化。它可以放大企业的优势,但如果未能正确理解并合理应用,也可能带来巨大的风险与损失。

在这篇文章中,我们将揭示8个关键事实,帮助决策者与技术管理者在应用生成式AI时避免常见的误区,掌握主动权。

picture.image

1. 生成式AI不是AI的全部,或许你需要的也并非大模型。

不要被铺天盖地的生成式AI、大模型、GPT等词汇带入信息茧房。生成式AI是在近两年呈现指数级爆发的人工智能技术,但它也只是AI技术的一部分。生成式AI的核心能力是能够生成新的原创内容,如文本、图像、视频等,它具有极强的自然语言理解、推理与创造能力。但AI的其他分支,如传统决策式AI仍然在图像识别、精准推荐、风险检测、辅助驾驶等领域扮演着至关重要的角色。

生成式AI通常依赖于大语言模型或图像生成模型,这是一种具有海量参数的神经网络模型。但传统的AI模型仍然存在,比如各种预测模型、推荐模型、人脸识别模型、语音识别模型等,所以大模型也并不能与AI模型划等号。

picture.image

对于决策者的意义在于,或许你想象的应用场景所需要的并不是生成式AI。比如某个行业的环境与设备的监测应用中,需要根据大量的参数与历史数据来构建故障预测与告警的系统,那你很可能需要的只是传统的深度学习模型而非大语言模型。

因此, 生成式AI并不能与AI直接划等号。在考虑企业的AI转型与战略时,不应该把目光仅局限在生成式AI,然后拿着这个“锤子”看谁都像“钉子”。

2. 不要期望生成式AI有绝对的确定性与准确性。

生成式AI虽然具有超越传统的理解与推理能力,但它的一大特点是其输出具有一定的不确定性。即使是完全相同的输入,大模型在不同时间生成的内容也可能不同,当然,这种不确定性也与你输入的提示指令、上下文以及期望的输出格式有关。比如你的要求是开放式的创作一封邮件或者一幅画,那么可能每次的输出都会有较大的差异;但如果你的要求是对一个输入的问题做分类或意图识别,并严格限定了输出的范围与要求,那么大部分时候或许都能收到相同的输出。

此外,生成式AI也无法保证输出的绝对“准确性”。这不像一个普通的计算器软件,你输入1+1,那么一定会得到2。由于大模型本质上是一种基于概率预测的输出模型,其推理后的输出有可能不完全正确,甚至发生错误(大模型的“幻觉”问题)。这种幻觉可以体现为事实的编造、复杂推理的错误、或者对复杂语境下处理能力的不足等。其原因可能来自训练知识的缺失、偏差、推理的过度泛化等。

尽管目前有很多方法,比如提示工程、RAG(检索增强生成)等可以帮助在很多场景下弱化大模型的幻觉问题,但并无法做到绝对意义上的消除幻觉。

所以, 尽管你可能已经被大模型的智能程度震惊,但需要知道它有时候会出错甚至“胡说八道”,这有助于更好的选择企业内生成式AI的应用场景。

3. 审慎选择生成式AI的应用场景是成功的第一步。

在了解生成式AI在确定性与准确性上的不足后,你就可以理解,尽管生成式AI在许多领域都展示了出色的能力,但短期内它并不适用于所有企业应用场景。原因也很简单:企业应用的很多场景需要绝对的确定性与准确性。

比如大模型可能很擅长内容创作、甚至自动化生成各种营销文案等,但在一些企业要求高度精确的任务中(如财务预测、法律文件生成、医疗诊断等),直接使用AI的生成结果就可能带来风险。因此,决策者必须小心选择应用场景,确保AI的使用能真正带来增值,而不是负担。

可以在部分应用场景优先考虑生成式AI:

picture.image

一些场景目前还不太适合生成式AI的自动处理,比如:

  • 有绝对准确性要求且缺乏保护机制:如交易型应用、数据决策支持应用等
  • 对响应性能要求极高的场景:如一些基于事件的实时响应的应用
  • 需要内容创作,但又缺乏严格的过滤与审核机制

总的来说, 不同企业应用场景在需要的业务能力、合规等级、工程化要求、流程复杂性等方面的差异,决定了生成式AI在企业应用中的落地并非千篇一律,决策者要充分考虑不同场景的应用成熟度与风险,切勿为了AI而AI。

4. 专业“小”模型有时候比大模型更有效。

大语言模型(如GPT-4)在处理通用类语言任务时,整体上预训练的数据量越大与参数越多,相对效果越好。但到了具体的行业任务场景下 “大”并不意味着更好,有时候使用微调后的专业的”小“模型可能更有效。原因是:

  • 专业化程度更高 :大部分大模型的预训练知识对专业领域应用并不能发挥作用。而小模型可以针对特定任务进行优化,以带来更高的准确性与可靠性。
  • 更高的计算性能 :相对大模型来说,参数量较少的小模型可以带来更快的计算速度与资源占用。
  • 更高的安全策略 :小模型具备更灵活的部署选择,以适应更高的安全与隐私要求。比如做私有本地化部署,以保护敏感,满足合规要求。
  • 更强的可解释性: 小模型结构相对简单,有时候有助于理解、解释与优化模型的输出。

一般的,考虑在这些场景中用“小”模型来代替大模型:

  • 资源相对受限的场景 。比如嵌入式设备、离线移动应用。
  • 极低延迟要求的场景 。比如车载环境实时助手、金融领域的高频交易系统等。
  • 较少数据量的微调场景。 大模型容易过拟合,比如对少量产品的咨询系统等。
  • 针对特定任务优化的场景。 比如针对特定应用的自然语言意图识别、对某个特定领域的文本分类等。
  • 需要频繁更新模型的场景。 比如一个基于微调模型的内部问答系统或违规审查系统,经常需要更新问答库与违规内容。

所以, 更大的模型并不总是最好的选择。尤其是在训练数据有限的情况下,小模型由于其简单性,更容易学习到数据的本质特征,从而在新数据上表现更好,有助于提高模型的泛化能力和实际应用效果。

5. 不要低估数据工程的重要性。

生成式AI的基础是模型,模型的基础是算力算法与数据。特别在企业应用中,直接基于通用大模型预训练数据产生的AI能力是不够的,大部分时候都需要通过微调、RAG等方法,将行业知识与经验融入到大模型。有了足够定制化的知识库、算法、工作流,才能准确理解业务场景,输出高质量的结果。

picture.image

  • 模型的微调需要高质量的训练知识。 这些数据都需要经过严格地收集、清洗和标注。比如医疗行业希望使用大模型来辅助诊断疾病,则需要大量的医学影像、病历和诊断结果等,并需要专业人员进行准确标注;再比如企业需要构建自己的自然语言交互助手来访问已有的ERP功能,你可能需要整理与设计大量的应用API信息做适应性微调,以提高意图识别的准确性。
  • 在典型的RAG类应用中,知识库至关重要。 比如在一个大型企业内部建设一个知识库智能问答系统,绝不是单纯的汇聚知识与向量化:你必须对企业内不同模态的知识整理、标准化、去除噪音数据、甚至丰富化,你还需要考虑索引的设计、如何构建评估数据集、知识生命周期管理等。这是一个系统的知识工程,而不是只是AI技术的事。
  • 数据的安全、隐私保护、输出内容的审查是数据工程的另一方面。 生成式AI在企业的应用通常涉及大量业务、客户等敏感数据的输入,企业需要确保它们的安全并遵守相关的隐私法规。另外,生成式AI的不确定性可能会带来一些虚假、不当、甚至有害的内容,这需要严格的风险管控机制。

管理者需要意识到:生成式AI的项目是一个复杂的系统工程,需要技术与业务的全力合作与推进。特别是数据(知识)工程,在很多应用场景甚至比大模型本身更关键,而企业范围内的知识工程又需要技术、业务、运营、服务等各个层面的团队配合来完成。

6. 自然语言交互只是最“自然”,并不代表最佳体验。

考虑这样一个常见应用:在现有复杂的多个企业应用之上构建一个客户经理使用的移动AI助手,整合企业内MIS、ERP中的常用功能与流程,提供更便捷的自然语言交互,缩短操作路径。在这个场景中,大模型充当智能助手的大脑,企业应用提供智能体需要的工具。但这里需要注意的是:

  • 并非所有的功能与流程都适合采用自然语言的交互方式。 在一些复杂企业应用流程中,如果交互涉及到较多的复杂输入、数据校验、多次确认等,那么你就需要衡量这个功能是否适用。因为过多过长的自然语言输入,相比传统的多样且直观的GUI界面输入并没有更好的体验;此外,复杂的数据输入与多次交互,会大大增加模型在意图识别、参数提取等方面的出错概率。

  • 自然语言交互不等于简洁易用。 即使这个业务流程本身不具备足够的复杂性,自然语言也是一种适合的交互方式(比如简单的查询客户档案、登记产品意向等),也需要考虑如何让整个过程更更简洁且不容易出错。

picture.image

一些可能的优化建议有:

  • 优先考虑最常用、流程较短、输入简单的功能与流程。
  • 可以让自然语言与传统UI结合,各取所长。
  • 借助个性化设置或AI推理实现部分信息的智能化输入。

picture.image

一个自然语言结合GUI的例子(来自“支小宝APP”)

正如我们一直强调, 无论怎样的场景,为了AI而AI并不是目的,AI的价值在于是否真正的提升客户体验与生产力,而非某种表面的形式。

7. 私有部署模型不一定比公有云模型更安全。

不少企业在考虑大模型的引入与应用时,首先想到的就是购买GPU服务器部署模型。私有化部署常常是出于数据安全与合规考虑,但大部分企业,特别是中小企业却往往疏于思考的问题是(包括大型企业的部分应用):

  • 你的AI应用场景中是否需要这么高的数据安全?
  • 你是否能确保私有模型的安全性一定高于云端模型?
  • 你是否对于成本、技术能力、后期维护有足够的考虑?

picture.image

事实上,直接选择公有云模型还是私有部署,需要从多方面衡量与评估:

  • 数据安全与合规

私有部署在安全性上具备更高的控制权,但并不意味着云端模型就一定不安全。事实上,大模型服务提供商通常拥有更高水平的安全认证和加密技术,也需要经历更严苛的互联网安全考验。因此,企业需要衡量AI应用场景中涉及数据的敏感性、合规要求,以及云服务商的安全级别,避免盲目选择。

而且,很多大模型服务商也会向企业提供云端专有化部署模式。

  • 成本与资源的要求

私有部署的初期成本较高,包括硬件、软件和人力投入。而云端模型通常的“按需付费”可以大大降低初期成本。私有部署还需要企业投入大量资源进行维护和升级,这对中小型企业尤其是非核心技术团队来说是一项巨大负担。因此,企业需要权衡总体拥有成本,并考虑是否具备足够的技术能力和预算来支持私有部署。

  • 后期的维护与扩展

私有部署的模型可能在维护、升级和集成新技术方面效率较低,相对来说,云端模型则可以由专业的服务提供商来保障更快地进行技术创新与版本演进,以保持竞争力。此外云端模型可能会具备较高的扩展性,比如快速增加或减少计算资源等,私有部署则在扩展性上相对受限,必须提前规划并投入。

因此, 选择公有云的模型服务(MaaS)还是私有部署模型,是一个需要从安全、成本、技术能力等方面综合考虑的决策。很多时候企业也可以考虑混合部署模式,结合使用云端模型与私有部署模型,以兼顾安全性、灵活性与综合成本。

8. 生成式AI应用比传统软件更需要上线前的全面评估。

当前企业AI落地的 失败率较高,很多生成式AI项目在上线后体现出来的效果并不佳,甚至一段时间尝鲜后就无人问津。这其中原因有很多: 对大模型能力缺乏 合理的 认知与期待、 缺乏 长远的规划与 合理的阶段性规划、 对 应用场景 的适用性缺乏科学 认识等。 还有一个就是 对生成式AI应用投入生产前的全面评估不足,从而把问题暴露在上线以后

picture.image

  • 大模型输出的不确定性需要做严格的评估 。例如,在回答问题、生成报告或进行数据分析时,可能会出现错误的信息或不准确的结论。如果不进行全面评估,这些错误可能会被引入到企业生产中,导致严重的后果。
  • 不能忽视不同模型在不同任务场景下的差异。 例如,某些模型可能在特定领域表现出色,但在其他领域则可能效果不佳。 这导致了有时候简单的更换底层模型,也可以导致较大的结果差异。
  • 大模型需要大量的数据进行训练,这些数据可能包含敏感信息。

在将生成式 AI 应用投入企业生产之前,必须评估其数据安全和隐私保护措施,以确保企业和客户的数据不会被泄露或滥用。

  • 如果借助大模型进行内容生产,那要注意评估大模型是否存在偏见、歧视或不适当的言论, 这可能会对企业的声誉和形象造成损害 。 此外,生成式 AI 应用的使用也可能涉及到知识产权、版权等法律问题。
  • 企业还需要借助评估来考虑大模型使用的成本效益。 比如消耗的高性能计算资源或者模型调用的成本、数据准备与后期维护成本等,并结合可能产生的收益,评估 AI 应用能够为企业带来实际的价值和效益,避免盲目追求技术而忽视成本的实际效益。

除此之外,生成式AI可能带来的用户交互与体验的不同、性能延迟、大模型未来的维护升级等也需要有更多的测试评估。

所以管理者需要意识到, 大模型应用在投入生产之前的评估相比传统应用更重要。 同时由于模型输出的不确定性,评估的方法也会更复杂。 借助于一些成熟的方法论、评估框架、性能工具或许是合适的方法。

结束语

生成式AI和大模型的应用的确为企业带来了前所未有的创新机会,但其背后也隐藏着复杂的挑战。希望上文阐述的一些事实能够帮助决策者清楚地认识到这些技术的特点、潜力与局限性,并通过合理选择应用场景、搭建合适的基础设施以及制定有效的风险管理机制,真正实现生成式AI的价值,推动业务增长与创新。

picture.image

END

点击下方关注我,不迷路

交流请识别以下名片并说明来源

picture.image

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论