创建模型评测任务--火山方舟大模型服务平台-火山引擎

文档中心

导航

创建模型评测任务

最近更新时间：2025.03.03 15:48:02首次发布时间：2023.09.22 14:50:53

使用前提： 模型广场中的主流大模型，以及精调训练完成后的仓库模型，可直接选中进行评测，无需额外配置。

模型评测入口

入口1：登录火山方舟平台，点击左侧导航栏中的 评测任务模块， 进入模型评测功能页面

入口2：通过左侧导航栏中的模型仓库模块，勾选需要评测的模型，点击页面下方的发起评测按钮

入口3：通过左侧导航栏中的模型精调模块，找到需要评测的模型，点击页面右侧的 发起评测 按钮

创建评测任务

点击 创建评测任务 按钮，创建一个新的评测任务。填写模型评测任务表单，包括基本信息和评测配置。待评测的模型，可以选择来自模型广场的基础模型，精调后的任一模型、模型仓库内的模型。

添加评测集

评测配置

评测方法	适用评测题目类型	举例
前缀匹配（Prefix Match）	适用于需要模型提供和标准答案相同的题目，生成模型可能还会输出额外的补充信息，但不会影响得分判断	题目要求模型回答“首都是哪里？”标准答案是“北京”。如果模型的回答是“北京” 或以“北京”开头“北京。北京是一座古老的城市...”，均得分为100分。如果模型的回答不以“北京”开头，则得分为0分
包含关键词（Include）	适用于需要模型回答中包含特定关键词或信息的题目，而不需要完全匹配。	题目要求模型回答“首都是哪里？”标准答案是“北京”。如果模型的回答也是“北京”，或者“首都是北京”则得分为100分。如果模型的回答不包含“北京”，则得分为0分。
裁判员模型打分	适用于开放性问题或复杂对话场景	用户定义评估标准，若用户未定义，平台将采用默认评估标准

确认评测内容并提交 模型和评测集选择后，右侧栏会显示本次模型评测任务所需的费用预估。确认无误后，点击“提交评测任务”按钮启动任务。

任务启动后，可在评测任务列表中查看任务的运行状态和评测进度。每个模型都有属于该模型的单独评测任务，以便进行独立或组合查看。