You need to enable JavaScript to run this app.
导航
新建评测任务
最近更新时间:2024.09.23 20:29:43首次发布时间:2024.09.23 20:29:43

随着大模型整体行业热度快速上升,越来越多的大模型产品急需科学高效的评估指标与评估工具,对大模型产品的应用效果给出综合评价结果。面向大模型采购客户,DataTester提供高效易用大模型在线评测、分析、监控和快速优化产品能力,本文为您介绍大模型评测的功能介绍和操作指导。

前提条件
  • 已完成数据集创建并将数据完成上报,详情请参见新建数据集
  • (可选)已有待测评的指标,DataTester为您预置了部分测评指标,如果不满足您的测评需求,您需先创建自定义测评指标,详情请参见(可选)新建指标

新建评测任务
  1. 登录DataTester产品控制台后,在左侧导航栏单击场景能力>大模型测评>测评管理,进入模型测评任务页面,单击页面右上角的新建评测任务
    图片

  2. 在弹出的页面中配置指标参数。
    图片

    1. 配置测评名称、描述等基础信息。
    2. 配置侧数据集。
      在下拉框中选择已创建的数据集。
    3. 配置测评指标。
      • 单击添加指标即可选择已有的测评指标(含预置指标、已创建的自定义指标)。
      • 如果下拉框中没有您想要的指标,也可单击新建自定义指标,为测评任务创建并添加新的自定义测评的指标。
  3. 配置数据映射。
    图片

    配置选择的数据集中的字段与指标依赖字段间的映射关系。后续对指标进行打分时,会通过此处配置的映射关系获取对应上报的实际数据取值。

  4. 配置评测高级配置。
    图片
    根据实际评测需要,选择评测的时间周期、评测的数据条数。时间过长、评测条数过多会消耗测评任务资源,建议您根据实际需要进行选择。

  5. 完成配置后单击确认创建,完成测评任务创建。

(可选)接入测评数据
  • 如果您此前已创建过数据集并将数据完成上报,则创建测评任务时直接选用对应数据集即可。
  • 如果您此前没有创建数据集,您也在测评任务创建完成后,获取对应的测评任务ID,直接通过API接入存储至测评任务,操作与将数据上报至数据集类似,详情请参见上报评测数据

查看测评报告

在模型测评任务页面单击对应测评任务名称,即可查看对应测评任务的测评结果报告。
图片

  • 测评报告为您展示整体测评数据量和测评进展。
  • 在为主指标得分可查看测评任务中配置的各个指标的测评得分,以及各指标的天级趋势、分布分析。
  • 在得分明细表中您可以查看各指标的得分明细。
    • 您可以单击得分分数,跳转至测评明细页面中,进一步查看对应得分的测评数据的测评结果明细。
      图片
    • 您可以在左上角切换查看的指标维度,并设置对应指标需要高亮展示的分数区间,在得分明细表中高亮展示对应分数区间的分数。
    • 单击导出按钮,可将明细数据导出至本地。

编辑/关闭等任务管理操作

在模型测评任务页面,您可以对测评任务进行编辑、删除,或关闭/开启的操作。
图片