You need to enable JavaScript to run this app.
导航
大模型评测概述
最近更新时间:2024.09.26 10:48:43首次发布时间:2024.09.23 20:29:43

随着大模型整体行业热度快速上升,越来越多的大模型产品急需科学高效的评估指标与评估工具,对大模型产品的应用效果给出综合评价结果。面向大模型采购客户,DataTester提供高效易用大模型在线评测、分析、监控和快速优化产品能力,本文为您介绍大模型评测的功能介绍和操作指导。

应用场景

DataTester为您预置了大模型评测指标,支持从回答关联度、回答真实度、上下文关联度等指标维度,对大模型的应用效果进行评测,并为您生成评测报告。您可以基于评测报告进一步调试优化模型,以达到更优的应用效果。
图片

注意事项
  • 当前大模型评测功能仅支持SaaS-云原生场景。
  • 当前此功能仅限白名单用户使用。如果您希望试用大模型评测功能,您可以联系A/B测试技术支持人员,申请开通此功能。

操作流程
  1. 联系A/B测试技术支持人员,申请白名单试用。
  2. 新建数据集,并将待测评的数据通过API上报并存储至数据集中,详情请参见新建数据集
  3. (可选)新建指标。DataTester为您预置了部分测评指标,您也根据实际需要创建自定义指标,操作详情请参见(可选)新建指标
  4. 新建测评任务。完成上述准工作后,您可创建测评任务,并查看测评报告结果,详情请参见新建评测任务