You need to enable JavaScript to run this app.
导航
大模型应用评测
最近更新时间:2024.09.02 11:51:55首次发布时间:2024.08.05 12:01:31

随着大模型整体行业热度快速上升,越来越多的大模型产品急需科学高效的评估指标与评估工具,对大模型产品的应用效果给出综合评价结果。面向大模型采购客户,DataTester提供高效易用大模型在线评测、分析、监控和快速优化产品能力,本文为您介绍大模型评测的功能介绍和操作指导。

应用场景

DataTester为您预置了大模型评测指标,支持从回答关联度、回答真实度、上下文关联度等指标维度,对大模型的应用效果进行评测,并为您生成评测报告。您可以基于评测报告进一步调试优化模型,以达到更优的应用效果。
图片

注意事项
  • 当前大模型评测功能仅支持SaaS-云原生场景。
  • 当前此功能仅限白名单用户使用。如果您希望试用大模型评测功能,您可以联系技术支持人员,申请开通此功能。

新建评测任务
  1. 联系技术支持人员,申请白名单试用。
  2. 登录DataTester产品控制台后,在左侧导航栏单击场景能力>大模型测评>测评管理,进入模型测评任务页面,单击页面右上角的新建评测任务
    图片
  3. 在弹出的页面中配置测评任务详情。
    图片
    • 配置测评名称、描述等基础信息。
    • 单击添加指标后在下拉框中选择预置的测评指标。
  4. 完成配置后单击确认创建,完成测评任务创建。

接入测评数据

获取评测任务ID

完成测评任务创建后,您可以在测评任务页面查看到测评任务的任务ID,您查看并记录对应ID,用于后续测评数据的接入。
图片

上报评测数据

当前支持通过调用HTTP API将测评上报测评数据。OpenAPI的使用指导如下。

上报地址

线上环境:https://tab.volces.com

接口详情

接口描述:上报评测数据
请求路径:/evaluate/openapi/v1/log
请求方式:POST
请求所需参数:

参数

类型

是否必选

描述

app_key

string

Datatester应用的AppKey,您可以在项目列表的项目详情中查看AppKey。
图片

eval_id

int

评测任务ID,您可以在上述步骤中获取已创建测评任务的任务ID。

dataset_id

int

数据集ID(当前暂不支持,后续数据集功能上线后,与任务ID二选一进行配置即可)。

contents

list[dict]

评测消息内容,详情请参见下文的content内容配置要求。

local_time_ms

int

事件上报毫秒时间戳,您需配置为测评消息事件发生的时间。如果未配置,则后续测评分析时对应事件的时间会默认补充为服务器消息接收时间。

如上述请求参数中填写dataset_id,content可为任意json格式

填写dataset_id,需先在页面创建数据集;上报数据将下保存至数据集,可将数据集关联至评测任务

如上述请求参数中填写eval_id,content格式需遵循下面的格式

填写eval_id,上报数据将直接用评测任务

参数

类型

是否必选

描述

question

string

问题

answer

string

回答

contexts

list[string]

召回上下文片段

ground_truth

string

标准答案

custom

dict

自定义字段,其中:

  • cost_token代表消耗token数量。
  • cost_time代表消耗时间(单位毫秒)。
{
    "app_key": "xxx",
    "eval_id": xx,
    "contents": [
        {
            "question": "p值是什么??",
            "answer": "p值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,但如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成,我们拒绝原假设的理由越充分。",
            "contexts": [
                "wins(B) + ties(A, B)]\n将上面的值代入到公式(1)中,即可求得检验统计量的值,进而求出p值(使用score代入进行计算时需要注意:X=avg(status)=2 * score;另外,上面的方差也可以直接由原始的方差公式变换求得,大家可以自己推导)。', '3. 计算统计量、检验阈值、置信区间及p值\n4. 得出结论:若p<0.05或|t|>阈值或置信区间包含0,则拒绝原假设;若p>0.05或|t|<=阈值或置信区间不包含0,则无法拒绝原假设。\n Note:有些其他的计算公式会假定两组的总体方差相等,在方差的计算方式上有区别,这类公式不推荐,因为该假设在AB实验应用中并不常见。\n**p-value**(后面还有个链接)\nP值就是当原假本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,但如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,**说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成**,我们拒绝原假设的理由越充分。\n**区别实验的True effect 、effect 、MDE**\nTrue effect:两组总体参数的差异。\nEffect:两组样本均值差或者说实验组与对照组间的指标差。"
            ],
            "ground_truth": "p值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明这种情况发生的概率很小,但如果出现了,根据小概率原理,我们就有理由拒绝原假设。P值越小,说明实验发现的差异是因为抽样误差导致的概率越小,极大程度上还是由于本质上存在差异造成,我们拒绝原假设的理由越充分。",
            "custom": {
                "cost_token": 123,
                "cost_time": 111
            }
        }
    ]
}

接口返回值:

参数

类型

描述

code

int

接口返回状态,200为成功

message

string

接口返回信息,成功时默认为success

data

string

成功是返回ok

{
    "code": 0,
    "message": "success",
    "data": "ok"
}

上报接入代码示例(curl)

curl --location 'https://tab.volces.com/evaluate/openapi/v1/log' \
--header 'Content-Type: application/json' \
--data '{
    "app_key": "5c64881c026e79318be99c6474******",
    "dataset_id": 1,
    "contents": [
        {
            "input": {
                "messages": [
                    {
                        "type": "assitant",
                        "message": "你好"
                    }
                ]
            },
            "output": "你好"
        }
    ],
    "local_time_ms": 1724155352630
}'

查看测评报告

在模型测评任务页面单击对应测评任务名称,即可查看对应测评任务的测评结果报告。
图片

  • 测评报告为您展示整体测评数据量和测评进展。
  • 在为主指标得分可查看测评任务中配置的各个指标的测评得分,以及各指标的天级趋势、分布分析。
  • 在得分明细表中您可以查看各指标的得分明细。
    • 您可以单击得分分数,跳转至测评明细页面中,进一步查看对应得分的测评数据的测评结果明细。
      图片
    • 您可以在左上角切换查看的指标维度,并设置对应指标需要高亮展示的分数区间,在得分明细表中高亮展示对应分数区间的分数。
    • 单击导出按钮,可将明细数据导出至本地。

编辑/关闭等任务管理操作

在模型测评任务页面,您可以对测评任务进行编辑、删除,或关闭/开启的操作。
图片