随着大模型时代的来临,人机交互模式发生了革命性的变化,给个体创作者带来了前所未有的赋能。一方面,插件机制的出现,让平台开启了“应用时刻”,为模型的场景应用带来巨大的可能性。更有“灵魂”的数字人也有望成为下一代人机交互的入口。人机交互的革新将赋能个体成为超级生产者。而在AI助力产业发展方面,MaaS服务和垂直领域应用将是大模型时代AI发展的重要趋势,通过建设可控、可用的安全生态,推动模型的落地和应用,AI技术将为各行业带来更多的机遇和挑战。大模型时代带来的创新和发展,将推动人工智能走向更广阔的未来。
本趋势洞察包括以下两个方向:
- AI Agent自主代理
- 多模态大模型
AI Agent(自主代理)
自主代理是一种无需人工干预即可实现既定目标的组合系统。它们利用各种人工智能技术来识别环境中的模式、做出决策、执行一系列操作并生成输出。这些代理具有从环境中学习并随着时间的推移不断改进的潜力,使它们能够处理复杂的任务。 AI Agent需要感知环境、做出决策并执行适当的行动。在这些关键步骤中,最重要的是理解输入给Agent的内容、推理、规划、做出准确决策,并将其转化为可执行的原子动作序列,以实现最终目标。目前,许多研究利用LLM作为AI Agent的认知核心,这些模型的发展为完成这一步骤提供了质量保证。 LLM的优势:大型语言模型在语言和意图理解、推理、记忆甚至移情等方面具有强大的能力,可以在决策和规划方面发挥卓越的作用。再加上预先训练的知识,它们可以创建连贯的行动序列,并有效地执行。此外,通过反思机制,这些基于语言的模型可以根据当前环境提供的反馈不断调整决策和优化执行序列。 LLM的应用:LLM为Agent研究提供了一个非常强大的基础模型,在与Agent相关的研究中,LLM开辟了许多新的机会。例如,我们可以探索如何将LLM的高效决策能力整合到传统的Agent决策框架中,使Agent更容易应用于对专业知识要求较高且以前由人类专家主导的领域。此外,Agent研究不再局限于简单的模拟环境,现在可以扩展到更复杂的真实世界环境中。 总之,自主代理是一种具有自主性、反应性、积极性和社交能力特征的智能实体。它们利用各种人工智能技术来识别环境中的模式、做出决策、执行一系列操作并生成输出。这些代理具有从环境中学习并随着时间的推移不断改进的潜力,使它们能够处理复杂的任务。 模式变革(Agent是下个智能化的趋势,也是成为通向AGI的关键路径和必经之路):
模式范式:
定义一个AI Agent,以下是一个简单的示例:
class AIAgent:
def __init__(self, name):
self.name = name
def say_hello(self):
print(f"Hello, my name is {self.name}")
def perform_task(self, task):
if task == "calculate":
return self.calculate()
else:
print("I don't know how to perform this task")
def calculate(self):
# 这里可以添加计算逻辑
return 42
# 创建一个AI Agent实例
agent = AIAgent("John")
# AI Agent打招呼
agent.say_hello()
# AI Agent执行任务
result = agent.perform_task("calculate")
print(f"The result of the calculation is {result}")
多模态大模型
多模态GenAI是一种新兴的变革性技术,它能够将不同类型的数据输入和输出进行组合,包括图像、视频、音频、文本和数字数据。这种技术使得生成式人工智能更加灵活和多功能,能够应对多模态数据的挑战。 多模态GenAI的市场渗透率还不足目标受众的1%,但它具有潜力在企业应用中产生变革性的影响。其重要性在于能够处理现实世界中多种数据类型的复杂关系,从而扩展了人工智能的应用范围。 多模态模型通过高技术供给量塑 AI 技术范式。多模态模型通过融合语言模态与图像模态,将语言模态包含的文本理解与思维链能力投射在图像模态上,赋予了模型图像理解与生成功能。从 AI 技术范式来看,多模态技术通过预训练+调参的方式颠覆了传统机器视觉小模型 CNN 高度定制化的业务模式,模型的泛用性大幅度提高。从 AI 商业模式来看,产业的话语权逐渐由应用端走向研发端,即改变了之前完全由客户定夺市场 (项目制考虑单一任务投入人力、算力、周期计算项目金额) 转向由技术定义市场(MAAS,客户无法估测基础模型摊薄成本,基座模型大力投入限制参与玩家,话语权降低)。 趋势1:端到端统一多模态大模型
趋势2:多模态学习单模任务类大模型
趋势3:基于Agent的控制多模态大模型
infoq原文:https://xie.infoq.cn/article/5acf2b7fcb0a8d9cbf5f9d049