与去年的盛大活动形成鲜明对比,OpenAI 在周二举行了一个更为低调的 DevDay 大会,放弃了重大产品发布,而是专注于其现有 AI 工具和 API 的逐步改进。
今年公司的重点是赋能开发者并展示社区故事,这标志着随着人工智能领域的竞争日益激烈,其策略发生了转变。
在活动中公布了四项重大创新:视觉微调、实时 API、模型蒸馏和提示缓存。这些新工具突显了 OpenAI 的战略转向,旨在赋能其开发者生态系统,而不是直接在最终用户应用领域进行竞争。
提示缓存:对开发者预算的福音
最显著的宣布之一是引入了提示缓存功能,该功能旨在为开发人员减少成本和延迟。
该系统自动对模型最近处理的输入令牌应用 50%的折扣,对于频繁重用上下文的应用程序,这可能带来显著的节省。
“我们一直很忙碌,”OpenAI 平台的产品负责人奥利维尔·戈德芒特在公司旧金山总部的小型新闻发布会上说,这场发布会标志着开发者大会的开始。“仅仅两年前,GPT-3 还在获胜。现在,我们已经将这些成本减少了近 1000 倍。我试图找到一个在两年内将成本减少近 1000 倍的技术的例子——但我找不到这样的例子。”
这次显著的成本降低为初创企业和企业探索以前因成本问题而无法触及的新应用提供了重大机遇。
OpenAI 的 DevDay 2024 的价格表显示了 AI 模型使用成本的重大降低,缓存输入令牌与未缓存令牌相比,各种 GPT 模型的费用可节省高达 50%。新的 o1 模型展示了高端定价,反映了其先进的功能。(来源:OpenAI)
视觉微调:视觉 AI 的新前沿
另一个重大宣布是为 GPT-4o 引入了视觉微调功能,这是 OpenAI 的最新大型语言模型。这一特性允许开发人员通过图像和文本来定制模型的视觉理解能力。
这次更新的影响深远,可能会影响诸如自动驾驶车辆、医疗成像和视觉搜索功能等领域。
根据 OpenAI 的说法,Grab,一家领先的东南亚外卖和打车公司,已经利用这项技术来改进其地图服务。
仅使用 100 个例子,Grab 据报道在车道计数准确性上提高了 20%,在速度限制标志定位上提高了 13%。
这个实际应用展示了视觉微调的可能性,可以显著增强使用少量视觉训练数据的 AI 驱动服务在各个行业的应用。
视觉微调遵循与文本微调类似的过程——开发人员可以准备他们的图像数据集,使其遵循正确的格式,然后将该数据集上传到我们的平台。他们只需 100 张图片就可以提高 GPT-4o 在视觉任务中的性能,并通过更多的文本和图像数据驱动更高的性能。
实时 API:在对话式 AI 中填补差距
OpenAI 还推出了实时 API,现已进入公测阶段。这一新功能使开发人员能够创建低延迟、多模态体验,尤其是在语音到语音的应用程序中。这意味着开发人员可以开始在应用程序中添加 ChatGPT 的语音控制。
为了说明 API 的潜力,OpenAI 展示了一个名为 Wanderlust 的旅行规划应用的更新版本,该应用在去年的会议上展示过。
实时 API 允许用户直接与应用程序交流,进行自然对话来规划他们的行程。系统甚至允许在句子中间打断,模仿人类对话。
虽然旅行规划只是其中一个例子,实时 API 为跨行业语音启用应用打开了广泛的可能性。
从客户服务到教育和无障碍工具,开发人员现在拥有了一个强大的新资源,可以创建更加直观和响应式的 AI 驱动体验。
“无论我们设计产品,本质上都是从创业公司和大企业两个角度考虑的,”Godement 解释道。“在 alpha 阶段,我们有大量企业使用 API,新产品的新型模式。”
实时 API 基本上简化了构建语音助手和其他对话 AI 工具的过程,消除了将多个模型缝合在一起进行转录、推理和文本到语音转换的需要。
早期采用者,如 Healthify(一款营养和健身指导应用)和 Speak(一款语言学习平台),已经将实时 API 整合进了他们的产品中。
这些实现展示了该 API 在从医疗保健到教育等各个领域的潜力,用于创建更加自然和吸引人的用户体验。
实时 API 的价格结构,虽然每分钟音频输入为 0.06 美元,每分钟音频输出为 0.24 美元,可能并不便宜,但对于希望创建基于语音的应用程序的开发者来说,仍然可能提供显著的价值主张。
以前,为了创建类似的声音助手体验,开发者需要使用自动语音识别模型(如 Whisper)转录音频,将文本传递给文本模型进行推理或推断,然后使用文本到语音模型播放模型的输出。这种方法往往会导致情感、强调和口音的丢失,以及明显的延迟。通过 Chat Completions API,开发者只需通过一个 API 调用即可处理整个过程,尽管它仍然比人类对话慢。实时 API 通过直接流式传输音频输入和输出来改进这一点,从而能够实现更自然的对话体验。它还可以自动处理中断,类似于 ChatGPT 中的高级语音模式。引擎下,实时 API 允许您创建持久的 WebSocket 连接,与 GPT-4 进行消息交换。
模型蒸馏:通向更易获取的 AI 的一步
最具有变革性的宣布可能是模型蒸馏的引入。这个整合的工作流程使开发人员能够利用像 o1-preview 和 GPT-4o 这样的高级模型的输出,以提高像 GPT-4o mini 这样的更高效模型的性能。
这种方法可以让较小的公司利用与高级模型类似的性能,而无需承担相同的计算成本。
它解决了人工智能行业长期存在的分歧,即尖端、资源密集型系统与其更易于访问但能力较弱的同类系统之间的差距。
考虑一家专注于为农村诊所开发基于 AI 的诊断工具的小型医疗科技初创公司。通过使用模型蒸馏技术,该公司可以训练一个紧凑型模型,该模型能够捕捉大型模型的大部分诊断能力,同时可以在标准笔记本电脑或平板电脑上运行。
这可能会将高级 AI 能力带到资源受限的环境中,有可能在服务不足的地区改善医疗保健结果。
OpenAI 的战略转变:构建可持续的人工智能生态系统
OpenAI 的 2024 DevDay 标志着公司的战略转向,优先发展生态系统,而不是追求吸引眼球的产品发布。
这种方法虽然对公众来说不够吸引人,但它展示了对人工智能行业当前挑战和机遇的成熟理解。
今年的活动显得较为低调,与 2023 年的 DevDay 形成鲜明对比,后者在推出 GPT 商店和自定义 GPT 创建工具时引发了类似于 iPhone 的兴奋。
然而,自那时以来,人工智能的景观已经迅速发展。竞争对手取得了显著进展,对用于训练的数据可用性的担忧也加剧了。OpenAI 专注于优化现有工具并赋能开发者,似乎是对其这一变化的有策略的回应。通过提高其模型的效率和成本效益,OpenAI 旨在保持其竞争优势,同时解决资源密集度和环境影响的担忧。
随着 OpenAI 从颠覆者转变为平台提供商,其成功在很大程度上将取决于其培养繁荣的开发者生态系统的能力。
通过提供改进的工具、降低的成本和增加的支持,该公司正在为人工智能领域长期增长和稳定打下基础。
虽然短期内可能不太明显,但这一策略最终可能导致在多个行业中更可持续和广泛的 AI 采用。
本文转自VentureBeat
请大家关注下这个活动:
以上就是今天的内容,AI的世界每天都在变化,好工具层出不穷,如果希望及时了解AI新资讯,可以关注这个公众号。也可以添加我的微信。
关键词:智能体
创作不易,既然看到这里了,如果觉得不错,请订阅公众号,然后点个赞、在看、转发