编程实验-大模型实验--A/B测试-火山引擎

文档中心

立即注册

导航

编程实验-大模型实验

最近更新时间：2025.03.21 19:20:47首次发布时间：2025.03.21 19:20:47

大模型实验模板创建，适用于公司内在使用大模型做二次开发场景需要快速直接开启一个大模型实验并进行相关的数据采集，和指标分析。针对大模型场景内置了相关的标准埋点事件采集和实验模板，一键开启。本文为您介绍大模型实验的开启和使用指导。

应用场景

创建大模型实验	托管大模型基础配置
业务上有使用大模型如豆包大模型等做二次开发，需要针对模型的各个参数如 system prompt、temperature、max_tokens 等参数做调整，使用 AB 对比组间不同参数的效果，高效迭代大模型基础设置参数迭代快速采集大模型场景基础事件指标	对业务场景中创建一个大模型配置的FeatureFlag，用于托管不同模型服务的配置，无需发版的情况下变更大模型的基础配置。支持模型参数变更灰度、版本管理、版本回滚。

创建大模型实验

托管大模型基础配置

业务上有使用大模型如豆包大模型等做二次开发，需要针对模型的各个参数如 system prompt、temperature、max_tokens 等参数做调整，使用 AB 对比组间不同参数的效果，高效迭代

大模型基础设置参数迭代
快速采集大模型场景基础事件指标

对业务场景中创建一个大模型配置的FeatureFlag，用于托管不同模型服务的配置，无需发版的情况下变更大模型的基础配置。

支持模型参数变更灰度、版本管理、版本回滚。

注意事项

细分项	注意事项
实验类型	当前仅编程实验-服务端类型的实验支持开展大模型实验，因此大模型需在服务端进行实验SDK集成。
支持的开发语言	当前仅支持Python，已验证Python版本为3.7-3.12之间。 Golang和Java即将上线。
费用与用量	当前所有SaaS用户可免费试用大模型实验功能，不额外收取费用。使用大模型实验不会增加大模型的Token使用量。

应用场景1：创建大模型实验

准备工作：创建实验指标组

您可以根据大模型应用的实验目标先创建好对应的实验指标，便于后续创建实验时直接选用。

DataTester为您提供了大模型实验的预置事件：$llm_usage_log，您可以基于大模型预置事件配置大模型实验所需指标，预置事件和事件属性详情请参见预置大模型性能事件。
如果需要配置多个指标，建议创建一个大模型实验指标组，将指标均关联至此指标组中。
大模型实验指标的指导与普通实验指标的配置类似，详情请参见新建事件指标。以下为一个配置示例。

创建大模型实验

登录并进入DataTester控制台后，在实验列表页面上方单击新建大模型实验。

配置实验参数，完成实验创建。
大模型实验的实验参数配置与编程实验-服务端实验的参数配置基本一致，以下为您介绍配置要点，更多详细介绍可参见编程实验。

实验版本与实验参数配置。您可以根据实验目标为各个实验版本配置实验变量参数的取值，配置完成后可以在界面获取SDK嵌入代码，后续将此部分代码嵌入至应用的业务代码中。
选择需要关注指标。

您可以参考以下指标用于大模型实验分析。

指标类型	配置建议	注意事项
模型业务指标	人均每天对话次数大模型对话渗透率（调用模型用户数/dau）“日活跃用户数（Daily Active Users，DAU）	为保障对应指标能正常产生数据，您需要在后续步骤-集成大模型实验SDK时，确保有指标依赖的数据采集上报。
模型性能指标	模型调用延迟耗时大模型调用成功率
模型消耗相关指标	人均消耗tokens 数人均每天 tokens 消耗总数

后续步骤

集成大模型实验SDK
创建完成实验后，您需要记录获取到的实验参数代码，在应用代码中集成实验SDK，并嵌入包含实验参数的代码，详情请参见大模型实验SDK集成。
调试并开启实验，一段时间后查看实验报告。
得出实验结论并固化feature。在以上完成后即可固化实验版本到线上，操作详情可参考实验固化至Feature。

应用场景2：托管大模型基础配置

创建模型配置 Featureflag

登录并进入DataTester控制台后，在配置管理>Feature列表页面创建大模型的配置Feature。

Feature的参数配置要点如下，其他配置要求与通用操作基本一致，详情可参见创建Feature：手动创建。

注意

Feature的变体类型和变体取值需参考以下要求进行配置，否则后续应用SDK上报的数据会解析失败，无法正常创建llm client。

参数	配置要求
变体类型	大模型实验场景下，变体取值一定要设置`json`。
变体取值	变体取值会在实验SDK代码中用于创建并初始化llm client。 `{ "api_key": "{api_key}", // 可选，若不在Feature变体中配置api_key，则需要在实验SDK集成代码中调用get_client_by_ff_config传递default_api_key "base_url": "{base_url}", "client_options": { // 可选，支持方舟Ark客户端初始化所需的所有参数，您可按需配置llm client初始化参数 "max_retries": 3, "timeout": 600 } }`

参数

配置要求

变体类型

大模型实验场景下，变体取值一定要设置json。

变体取值

变体取值会在实验SDK代码中用于创建并初始化llm client。

{
  "api_key": "{api_key}",  // 可选，若不在Feature变体中配置api_key，则需要在实验SDK集成代码中调用get_client_by_ff_config传递default_api_key
  "base_url": "{base_url}",
  "client_options": {    // 可选，支持方舟Ark客户端初始化所需的所有参数，您可按需配置llm client初始化参数
      "max_retries": 3,
      "timeout": 600
  }
}

获取模型Feature参数

模型Feature创建成功后，您可以在Feature列表页面点击Feature名称，在配置详情页面查看Feature的Key名称，用于后续实验SDK代码集成时配置。

后续步骤：集成大模型实验SDK

创建完成Feature后，您需要记录获取到的Feature Key 名称，在应用代码中集成实验SDK，详情请参见大模型实验SDK集成。

常见问题

大模型实验功能是否为增值功能，需要独立购买？

针对 SaaS 用户默认开放，无需独立购买。

开展大模型实验是否会额外消耗大模型 tokens？

不会额外消耗 tokens。

大模型数据怎么采集，会采集哪些信息？

和标准埋点事件的上报方式一致，会采集模型消耗 tokens 等基础性能信息，但不会采集存储模型对话内容，详细字段参考大模型实验SDK集成。