随着大模型整体行业热度快速上升,越来越多的大模型产品急需科学高效的评估指标与评估工具,对大模型产品的应用效果给出综合评价结果。面向大模型采购客户,DataTester提供高效易用的大模型在线评测、分析、监控和快速优化产品能力,本文为您介绍大模型评测的功能介绍和操作指导。
前提条件
- 已完成数据集创建并将数据完成上报,详情请参见新建数据集。
- (可选)已有待测评的指标,DataTester为您预置了部分测评指标,如果不满足您的测评需求,您需先创建自定义测评指标,详情请参见(可选)新建指标。
新建评测任务
登录DataTester产品控制台后,在左侧导航栏单击场景能力>大模型测评>测评管理,进入模型测评任务页面,单击页面右上角的新建评测任务。
在弹出的页面中配置指标参数。
- 配置测评名称、描述等基础信息。
- 配置侧数据集。
在下拉框中选择已创建的数据集。 - 配置测评指标。
- 单击添加指标即可选择已有的测评指标(含预置指标、已创建的自定义指标)。
- 如果下拉框中没有您想要的指标,也可单击新建自定义指标,为测评任务创建并添加新的自定义测评的指标。
配置数据映射。
配置选择的数据集中的字段与指标依赖字段间的映射关系。后续对指标进行打分时,会通过此处配置的映射关系获取对应上报的实际数据取值。
配置评测高级配置。
根据实际评测需要,选择评测的时间周期、评测的数据条数。时间过长、评测条数过多会消耗测评任务资源,建议您根据实际需要进行选择。
完成配置后单击确认创建,完成测评任务创建。
(可选)接入测评数据
- 如果您此前已创建过数据集并将数据完成上报,则创建测评任务时直接选用对应数据集即可。
- 如果您此前没有创建数据集,您也在测评任务创建完成后,获取对应的测评任务ID,直接通过API接入存储至测评任务,操作与将数据上报至数据集类似,详情请参见上报评测数据。
查看测评报告
在模型测评任务页面单击对应测评任务名称,即可查看对应测评任务的测评结果报告。
- 测评报告为您展示整体测评数据量和测评进展。
- 在为主指标得分可查看测评任务中配置的各个指标的测评得分,以及各指标的天级趋势、分布分析。
- 在得分明细表中您可以查看各指标的得分明细。
- 您可以单击得分分数,跳转至测评明细页面中,进一步查看对应得分的测评数据的测评结果明细。
- 您可以在左上角切换查看的指标维度,并设置对应指标需要高亮展示的分数区间,在得分明细表中高亮展示对应分数区间的分数。
- 单击导出按钮,可将明细数据导出至本地。
编辑/关闭等任务管理操作
在模型测评任务页面,您可以对测评任务进行编辑、删除,或关闭/开启的操作。