随着大模型整体行业热度快速上升,越来越多的大模型产品急需科学高效的评估指标与评估工具,对大模型产品的应用效果给出综合评价结果。面向大模型采购客户,DataTester提供高效易用的大模型在线评测、分析、监控和快速优化产品能力,本文为您介绍大模型评测的功能介绍和操作指导。
应用场景
DataTester为您预置了大模型评测指标,支持从回答关联度、回答真实度、上下文关联度等指标维度,对大模型的应用效果进行评测,并为您生成评测报告。您可以基于评测报告进一步调试优化模型,以达到更优的应用效果。
注意事项
- 当前大模型评测功能仅支持SaaS-云原生场景。
- 当前此功能仅限白名单用户使用。如果您希望试用大模型评测功能,您可以联系A/B测试技术支持人员,申请开通此功能。
操作流程
- 联系A/B测试技术支持人员,申请白名单试用。
- 新建数据集,并将待测评的数据通过API上报并存储至数据集中,详情请参见新建数据集。
- (可选)新建指标。DataTester为您预置了部分测评指标,您也根据实际需要创建自定义指标,操作详情请参见(可选)新建指标。
- 新建测评任务。完成上述准工作后,您可创建测评任务,并查看测评报告结果,详情请参见新建评测任务。