You need to enable JavaScript to run this app.
导航
创建模型评测任务
最近更新时间:2024.10.14 11:00:02首次发布时间:2023.09.22 14:50:53

使用前提: 模型广场中的主流大模型,以及精调训练完成后的仓库模型,可直接选中进行评测,无需额外配置。

模型评测入口

入口1:登录火山方舟平台,点击左侧导航栏中的 评测任务 模块, 进入模型评测功能页面
图片
入口2:通过 左侧导航栏中的 模型仓库 模块,勾选需要评测的模型,点击页面下方的 发起评测 按钮
图片
入口3:通过 左侧导航栏中的 模型精调 模块,找到需要评测的模型,点击页面右侧的 发起评测 按钮
图片

创建评测任务

点击 创建评测任务 按钮 ,创建一个新的评测任务。填写模型评测任务表单,包括基本信息和评测配置。待评测的模型,可以选择来自模型广场的基础模型,精调后的任一模型、模型仓库内的模型。
图片
添加评测集

  • 预置评测集:已按不同能力维度进行划分,用户可以自由选择或全面或针对性考察模型能力。参考模型评测体系介绍,帮助你选择更加符合评测诉求的评测组合。
  • 自定义评测集:如果你希望使用自己准备的评测题库,可以通过“上传数据集”或“从TOS导入”的方式添加评测集

评测配置

  • 评测任务类型,基于实际业务场景选择单轮任务评测或多轮任务评测。

  • 评测方式

    • 推理+自动评测,基于评测集完成推理后,执行自动评测。以下为各种评测方法的适用场景和举例:
    评测方法适用评测题目类型举例
    前缀匹配(Prefix Match)适用于需要模型提供和标准答案相同的题目,生成模型可能还会输出额外的补充信息,但不会影响得分判断题目要求模型回答“首都是哪里?”标准答案是“北京”。如果模型的回答是“北京” 或以“北京”开头“北京。北京是一座古老的城市...”,均得分为100分。如果模型的回答不以“北京”开头,则得分为0分
    包含关键词 (Include)适用于需要模型回答中包含特定关键词或信息的题目,而不需要完全匹配。题目要求模型回答“首都是哪里?”标准答案是“北京”。如果模型的回答也是“北京”,或者“首都是北京”则得分为100分。如果模型的回答不包含“北京”,则得分为0分。
    裁判员模型打分适用于开放性问题或复杂对话场景用户定义评估标准,若用户未定义,平台将采用默认评估标准
    • 仅推理,仅基于评测集完成推理。提交的评测任务会将模型生成的回答进行录入,但不会进行得分统计。用户可根据模型生成的答案自行灵活的进行相关评测指标的计算。

确认评测内容并提交 模型和评测集选择后,右侧栏会显示本次模型评测任务所需的费用预估。确认无误后,点击“提交评测任务”按钮启动任务。
alt
任务启动后,可在评测任务列表中查看任务的运行状态和评测进度。每个模型都有属于该模型的单独评测任务,以便进行独立或组合查看。