大语言模型场景下的 OpenAI 开发模式与 API 网关产品定位高度重合,API 网关能够作为面向大语言模型的重要工具,为大语言模型开发提供标准化入口、可观测、安全认证等功能。本文介绍火山引擎 API 网关作为 AI 网关,在大语言模型开发中的主要概念、功能、场景和优势。
自 OpenAI 发布以来,大语言模型现已成为推动各领域创新重要工具,各行各业对大语言模型应用场景也愈发广阔。然而,随着大语言模型应用的不断深入,挑战也随之出现。主要包括:
为应对上述问题,急需一款能够为大模型提供开发流程标准化、流量控制和治理、安全性增强和可观测性能力的工具。这个工具就是:AI 网关。AI 网关和我们在微服务开发中常见的 API 网关的能力非常相似,但前者针对大模型场景进行了更多集成和优化,为不同模型提供标准化调用入口,旨在提升模型调用的可用性和可观测性。
随着大模型技术的快速发展和成熟,大模型正被广泛应用于各类行业,各种不同结构和规模的大模型层出不穷。由于各模型在不同场景下的表现通常各有优劣,为了达到最优的业务效果,很多时候需要综合多个场景或同一个厂商的不同版本的模型组合使用,导致对这些模型的调用日益碎片化。
不同的业务需求常常需要整合多个供应商的模型,使得集成和管理成本急剧上升。这种碎片化的现象给企业带来了不小的挑战,包括复杂的模型调用策略、切换不同供应商的代码适配以及多个模型服务商集成过程中的稳定性和可靠性问题。
无论 AI 应用是服务于企业内部还是面向互联网用户,都需要考虑模型调用的安全管控。例如:在企业中需要为不同部门的用户进行认证和授权,并对模型的调用进行统一的审计,从而确保模型调用的安全性。
在面向互联网用户时,也需要对访问者的身份进行认证,并对每个用户访问模型的次数或 token 数进行限制,避免恶意用户调用。这就需要开发者在应用中额外增加认证鉴权、限流降级的能力,尤其当需要适配多个模型服务商时,还需要增加额外的适配工作。
由于大模型并不像传统应用具有确定的输入输出,不同 Prompt 提示词对模型输出有很大影响,不恰当的提示词可能导致模型产生无意义或不相关的输出。因此,在大模型应用开发和调试过程中需要能够更加完整记录调用的上下文,包括用户输入、Prompt 模板、 模型调用、function call 等,并根据用户的信息快速搜索到调用信息。 同时,在大模型应用开发过程需要不断对 Prompt 提示词进行调优,需要能够提供 Prompt 修改能够所见即所得的动态生效并在灰度环境中快速验证 Prompt 调优的效果。
在 AI 应用开发构建过程中,尤其是在需要对接多个不同的模型厂商时,会导致模型调用碎片化,安全性、可观测性能力更难维护,开发过程的效率也会降低。如下图所示,开发者需要对接多个模型厂商、自行实现在不同厂商间如何分配的流量的逻辑,分别从各个模型厂商获取调用的监控数据,还需要为各个模型分配合理的配额。
随着大模型数量的日益增多,对模型的调用日益碎片化, AI 网关能够提供统一入口和规范化的 API 层,允许客户端使用来自同一客户端访问多个模型厂商。无论其底层模型来自何种供应商都能通过一种规范化的模型接口格式访问(例如 OPEN AI 的接口),屏蔽不同模型厂商 API 的调用差异,降低适配成本。 并可根据场景流量比例将请求路由到不同大模型,帮助用户更平滑迁移到新的模型(如 OpenAI、豆包等)。
使用统一代理的优势主要体现在以下几个方面:
说明
AI 多模型访问代理的详细介绍和使用方法,请参见 AI 多模型代理。
随着大模型越来越多被集成到关键的业务链路中,模型调用的稳定性就变得至关重要,AI 网关通过多种机制增强调用稳定性。
在多模态应用日益普及的趋势下,AI 网关的作用愈发突出。视觉模型平均失败率(5%)高于聊天模型(2%),且处理延迟显著更长,这使得超时处理和故障转移的能力变得尤为关键。AI 网关通过稳定性治理机制有效应对高失败风险和长延迟,确保用户体验的一致性和服务的可靠性。
与传统的 Web 应用类似,衡量模型的推理效率主要关注延时、QPS 和 TPS 三个指标。在大模型场景下,延时可以进一步拆解为首个 token 生成时间(TTFT)和平均 token 生成时间(TPOT),这些延时指标对于衡量模型的性能有不同的作用,包括:
通过 AI 网关可观测插件增强了模型推理指标,加载插件后即可获取到相应指标,帮助用户有效跟踪了解模型使用情况,例如了解哪些项目消耗的 token 最多,有助于优化资源分配;明确哪些模型在特定任务上表现最佳,可指导项目选择合适的模型;掌握成本在不同团队或应用程序之间的分配情况,利于进行成本控制。
AI 网关还能够统一汇总记录多个模型的调用信息,记录每次调用的输入输出,还可以根据用户需要在日志中增加诸如 userId、调用渠道等 Debug 信息。
大模型推理调用的成本不菲,为避免恶意用户访问到推理服务。需要对用户的身份进行认证,只有合法的用户才能进行访问,例如,某公司为不同部门开发内部工具,希望允许人力资源部门的简历筛选工具访问某些模型,而客户服务聊天机器人可以访问另一组不同的模型。由网关处理客户端到网关已经网关到每个大模型厂商的身份验证,将大模型应用从复杂的认证功能中解放出来。
AI 网关提供了如下两种认证方式:
此外,AI 网关还可以实现以下功能:
提示词(Prompt)是一种典型的优化大模型输出的方式,通过仔细设计和选择 Prompt,可以指导大模型的生成过程,使其更符合用户的需求。在 Prompt 开发过程中需要不断设计和优化提示词、探索不同 Prompt 对模型输出的影响、让模型能够更好地理解用户的意图和要求。
AI 网关能够优化 Prompt 开发过程中日常的 Prompt 更新流程、实现 Prompt 的动态更新、避免 Prompt 耦合在工程代码中,同时能够提供 Prompt 灰度发布能力。