大语言模型场景下的 OpenAI 开发模式与 API 网关产品定位高度重合，API 网关能够作为面向大语言模型的重要工具，为大语言模型开发提供标准化入口、可观测、安全认证等功能。本文介绍火山引擎 API 网关作为 AI 网关，在大语言模型开发中的主要概念、功能、场景和优势。 :::tip **【邀测·申请试用】**：该功能目前处于邀测阶段，如需使用，请联系您的客户经理。 ::: ## 背景信息自 OpenAI 发布以来，大语言模型现已成为推动各领域创新重要工具，各行各业对大语言模型应用场景也愈发广阔。然而，随着大语言模型应用的不断深入，挑战也随之出现。主要包括： * 生成式 AI 带来新的数据安全威胁。 * 员工缺乏必要的 AI 开发技能。 * AI 开发无法与现有技术栈集成。 * 缺乏统一的数据策略。为应对上述问题，急需一款能够为大模型提供开发流程标准化、流量控制和治理、安全性增强和可观测性能力的工具。这个工具就是：AI 网关。AI 网关和我们在微服务开发中常见的 API 网关的能力非常相似，但前者针对大模型场景进行了更多集成和优化，为不同模型提供标准化调用入口，旨在提升模型调用的可用性和可观测性。 ## AI 应用构建的挑战 ### 缺乏统一调用方式随着大模型技术的快速发展和成熟，大模型正被广泛应用于各类行业，各种不同结构和规模的大模型层出不穷。由于各模型在不同场景下的表现通常各有优劣，为了达到最优的业务效果，很多时候需要综合多个场景或同一个厂商的不同版本的模型组合使用，导致对这些模型的调用日益碎片化。不同的业务需求常常需要整合多个供应商的模型，使得集成和管理成本急剧上升。这种碎片化的现象给企业带来了不小的挑战，包括复杂的模型调用策略、切换不同供应商的代码适配以及多个模型服务商集成过程中的稳定性和可靠性问题。 ### 模型安全管控困难无论 AI 应用是服务于企业内部还是面向互联网用户，都需要考虑模型调用的安全管控。例如：在企业中需要为不同部门的用户进行认证和授权，并对模型的调用进行统一的审计，从而确保模型调用的安全性。在面向互联网用户时，也需要对访问者的身份进行认证，并对每个用户访问模型的次数或 token 数进行限制，避免恶意用户调用。这就需要开发者在应用中额外增加认证鉴权、限流降级的能力，尤其当需要适配多个模型服务商时，还需要增加额外的适配工作。 ### 模型开发调试困难由于大模型并不像传统应用具有确定的输入输出，不同 Prompt 提示词对模型输出有很大影响，不恰当的提示词可能导致模型产生无意义或不相关的输出。因此，在大模型应用开发和调试过程中需要能够更加完整记录调用的上下文，包括用户输入、Prompt 模板、模型调用、function call 等，并根据用户的信息快速搜索到调用信息。同时，在大模型应用开发过程需要不断对 Prompt 提示词进行调优，需要能够提供 Prompt 修改能够所见即所得的动态生效并在灰度环境中快速验证 Prompt 调优的效果。在 AI 应用开发构建过程中，尤其是在需要对接多个不同的模型厂商时，会导致模型调用碎片化，安全性、可观测性能力更难维护，开发过程的效率也会降低。如下图所示，开发者需要对接多个模型厂商、自行实现在不同厂商间如何分配的流量的逻辑，分别从各个模型厂商获取调用的监控数据，还需要为各个模型分配合理的配额。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_f4032f653fb5b680daf6fc853850876a.png) ## AI 网关的关键能力 ### 多模型访问代理随着大模型数量的日益增多，对模型的调用日益碎片化， AI 网关能够提供统一入口和规范化的 API 层，允许客户端使用来自同一客户端访问多个模型厂商。无论其底层模型来自何种供应商都能通过一种规范化的模型接口格式访问（例如 OPEN AI 的接口），屏蔽不同模型厂商 API 的调用差异，降低适配成本。并可根据场景流量比例将请求路由到不同大模型，帮助用户更平滑迁移到新的模型（如 OpenAI、豆包等）。使用统一代理的优势主要体现在以下几个方面： 1. **简化集成**：不同的模型厂商可能采用各自独特的 API 接口和调用方式，这使得集成过程变得复杂且耗时。通过 AI 网关的统一协议，开发者无需针对每个模型厂商的 API 进行单独适配，只需遵循统一的接口规范进行开发，大大简化了集成的难度和工作量。 2. **提高开发效率**：统一的协议减少了开发者在不同模型 API 之间进行切换和学习的时间成本。他们可以更专注于业务逻辑的实现，而不必过多关注底层 API 的细节，从而提高开发效率。 3. **降低维护成本**：当模型厂商的 API 发生变化时，如果没有统一的协议，开发者需要逐个修改适配代码。而通过 AI 网关的统一协议，开发者只需在网关上进行一次修改，即可实现对所有使用该协议的模型的适配，降低了维护成本。 4. **增强可迁移性**：统一的协议使得系统更容易扩展和集成新的模型。当需要迁移新的模型时，只需在 AI 网关上进行配置，增加一个新的模型服务商即可，而无需对现有系统进行大规模的修改，提高了系统的灵活性和可扩展性。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_61352d4aed9f314c6d41323acb7e33b7.png) :::tip AI 多模型访问代理的详细介绍和使用方法，请参见 [AI 多模型代理](https://www.volcengine.com/docs/6569/1392484)。 ::: ### 稳定性治理随着大模型越来越多被集成到关键的业务链路中，模型调用的稳定性就变得至关重要，AI 网关通过多种机制增强调用稳定性。 * **支持不同模型的灰度测试**。例如在引入豆包模型时，可以将部分比例的流量切换到豆包，验证和对比不同模型或模型的不同版本之前的效果。 * **实现基于 token 的限流功能**。通过限制 token 的用量有效管理模型资源使用。除了对模型整体调用的 token 进行限流外，还可以针对不同的用户或渠道进行限流，例如可以为公司内部不同团队分别不同的网关的身份（在网关中称为“消费者”），并对不同团队分别设置相应的 token 用量配额，确保资源在用户或团队间公平分配，同时避免造成不必要的浪费。 * **提供不同模型间超时处理和故障转移功能**。网关会按照模型的优先级，当一个模型出现无法响应或出错的情况时，网关会自动切换至下一个模型，有效保证了应用程序的稳定性和可靠性。在多模态应用日益普及的趋势下，AI 网关的作用愈发突出。视觉模型平均失败率（5%）高于聊天模型（2%），且处理延迟显著更长，这使得超时处理和故障转移的能力变得尤为关键。AI 网关通过稳定性治理机制有效应对高失败风险和长延迟，确保用户体验的一致性和服务的可靠性。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_5b10f60baf57843d94c99a747af2b5c3.png) ### 模型调用可观测与传统的 Web 应用类似，衡量模型的推理效率主要关注延时、QPS 和 TPS 三个指标。在大模型场景下，延时可以进一步拆解为首个 token 生成时间（TTFT）和平均 token 生成时间（TPOT），这些延时指标对于衡量模型的性能有不同的作用，包括： * **TTFT**：用户输入查询后，模型生成第一个输出所需的时间。在实时交互中，低时延获取响应非常重要，但在离线工作负载中则不太重要。此指标受处理提示信息并生成首个输出 token 所需的时间所驱动。 * **TPOT**：为每个查询系统的用户生成一个输出 token 所需的时间。这一指标与每个用户对模型“速度”的感知相关。例如，TPOT 为 100 毫秒/token 表示每个用户每秒可处理 10 个 token，或每分钟处理约 450 个词，这一速度远超普通人的阅读速度。 * **总延时**：模型为用户生成完整响应所需的总时间。整体响应时延可使用前两个指标计算得出：时延 = （TTFT）+ （TPOT）\*（待生成的 token 数）。通过 AI 网关可观测插件增强了模型推理指标，加载插件后即可获取到相应指标，帮助用户有效跟踪了解模型使用情况，例如了解哪些项目消耗的 token 最多，有助于优化资源分配；明确哪些模型在特定任务上表现最佳，可指导项目选择合适的模型；掌握成本在不同团队或应用程序之间的分配情况，利于进行成本控制。 AI 网关还能够统一汇总记录多个模型的调用信息，记录每次调用的输入输出，还可以根据用户需要在日志中增加诸如 userId、调用渠道等 Debug 信息。 ### 安全认证大模型推理调用的成本不菲，为避免恶意用户访问到推理服务。需要对用户的身份进行认证，只有合法的用户才能进行访问，例如，某公司为不同部门开发内部工具，希望允许人力资源部门的简历筛选工具访问某些模型，而客户服务聊天机器人可以访问另一组不同的模型。由网关处理客户端到网关已经网关到每个大模型厂商的身份验证，将大模型应用从复杂的认证功能中解放出来。 AI 网关提供了如下两种认证方式： * API\-Key 认证：适合于给用户颁发访问模型的长期凭证。 * JWT 认证：适合于颁发临时的访问凭证，JWT token 会在七天后自动过期。此外，AI 网关还可以实现以下功能： * **配额管理**：可以为公司内不同的部门或不同的外部用户指定不同的访问模型的配额，例如为公司内一个部门或一个应用分配每天访问有一千万次豆包 PRO 128K 模型和五千万次豆包 Lite 128K 模型的配额。 * **密钥管理**：为不同的大模型厂商存储和轮换 API 密钥。 * **日志和审计**：保留详细日志，记录谁访问了什么、何时访问以及为何访问，这对于受监管行业的合规性特别有用。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_e57aec1ca80052802f5f54a772db0624.png) ### 简化 Prompt 开发调试提示词（Prompt）是一种典型的优化大模型输出的方式，通过仔细设计和选择 Prompt，可以指导大模型的生成过程，使其更符合用户的需求。在 Prompt 开发过程中需要不断设计和优化提示词、探索不同 Prompt 对模型输出的影响、让模型能够更好地理解用户的意图和要求。 AI 网关能够优化 Prompt 开发过程中日常的 Prompt 更新流程、实现 Prompt 的动态更新、避免 Prompt 耦合在工程代码中，同时能够提供 Prompt 灰度发布能力。 * **Prompt Template 动态更新**：开发者通常会使用 Prompt Template 来与大型模型交互，实际的开发和测试过程中，他们会不断调整模板，以测试与大模型的交互效果。因此网关需要能够动态加载 Prompt，比如通过 Nacos 配置中心或从其他用户使用的 Prompt 管理平台中动态读取，而不是让用户每次到网关修改插件。 * **Prompt 灰度发布**：通常情况下，Prompt 没有灰度发布机制，一经发布则全量用户就会使了最新版本的 Prompt，无法进行新功能的小范围灰度。对于生产应用而言，这种发布方式风险过大。通过 AI 网关的路由能力可以实现把指定用户 ID 的用户或指定比例的流量路由到新版本的 Prompt。 ![图片](https://portal.volccdn.com/obj/volcfe/cloud-universal-doc/upload_c3d1cc943e0bb00fe7448b614266dfaf.png)