评测集格式支持 .jsonl, .xlsx, .xls,一行一个评估样本。每次评测最多上传10个文件,每个文件样本数最多1000行。
输入参数说明
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
prompt | str | 是 | 输入指令,作为向模型的提问 |
answer | str | 是 | 评测的参考答案,用于对模型生成的回答进行验证 |
system | str | 否 | 引入角色的输入指令 |
parameters | dict | 否 | 请求参数,支持配置的参数包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop。参数细节信息参见API调用指南中的请求参数一节 |
输出参数说明
字段 | 类型 | 备注 |
---|---|---|
response | str | 模型生成的回答 |
usage | dict | tokens使用信息,参考API调用指南中响应参数一节的usage信息 |
error | str | 若因数据或平台问题导致推理无法完成,将展示error |
示例
# 输入文件eval_math.jsonl {"system":"请完成下面的计算题","prompt":"0+0","parameters":{"top_k":1},"answer":"0"} {"system":"请完成下面的计算题","prompt":"0+1","parameters":{"top_k":1},"answer":"1"} {"system":"请完成下面的计算题","prompt":"0+2","parameters":{"top_k":1},"answer":"2"} {"system":"请完成下面的计算题","prompt":"0+3","parameters":{"top_k":1},"answer":"3"} {"system":"请完成下面的计算题","prompt":"0+4","parameters":{"top_k":1},"answer":"4"} {"system":"请完成下面的计算题","prompt":"0+5","parameters":{"top_k":1},"answer":"5"} {"system":"请完成下面的计算题","prompt":"0+6","parameters":{"top_k":1},"answer":"6"} {"system":"请完成下面的计算题","prompt":"0+7","parameters":{"top_k":1},"answer":"7"} {"system":"请完成下面的计算题","prompt":"0+8","parameters":{"top_k":1},"answer":"8"} {"system":"请完成下面的计算题","prompt":"0+9","parameters":{"top_k":1},"answer":"9"} {"system":"请完成下面的计算题","prompt":"0+10","parameters":{"top_k":1},"answer":"10"} {"system":"请完成下面的计算题","prompt":"0+11","parameters":{"top_k":1},"answer":"11"} {"system":"请完成下面的计算题","prompt":"0+12","parameters":{"top_k":1},"answer":"12"} {"system":"请完成下面的计算题","prompt":"0+13","parameters":{"top_k":1},"answer":"13"} {"system":"请完成下面的计算题","prompt":"0+14","parameters":{"top_k":1},"answer":"14"} {"system":"请完成下面的计算题","prompt":"0+15","parameters":{"top_k":1},"answer":"15"} {"system":"请完成下面的计算题","prompt":"0+16","parameters":{"top_k":1},"answer":"16"} {"system":"请完成下面的计算题","prompt":"0+17","parameters":{"top_k":1},"answer":"17"} {"system":"请完成下面的计算题","prompt":"0+18","parameters":{"top_k":1},"answer":"18\"123\""} {"system":"请完成下面的计算题","prompt":"0+19","parameters":{"top_k":1},"answer":"19"} # 输出文件eval_math_result.json {"session_id": "id_1", "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"endpoint_id": "ep-20240914181030-2g9gb", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}, "content": "\\(1+1=2\\)", "score": 0.0}]}]}
输入参数说明
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
session_id | int | 否 | 标记一段对话 |
system_prompt | str | 否 | 引入角色的输入指令 |
query | str | 是 | 输入指令,作为向模型的提问 |
reference_response | str | 否。若评测方式选择推理+自动评测,则必填 | 参考回复 |
response | str | 否 | 豆包模型生成的回答 |
示例
session_id | system_prompt | query | reference_response | response |
---|---|---|---|---|
1 | 你是我的好朋友Tina,你会陪我聊天、解闷 | 你好啊 | 你好!今天过得怎么样呢?有没有什么好玩的事情想和我分享呀? | |
2 | 你是我的好朋友Tina,你会陪我聊天、解闷 | 你叫什么名字啊 | 我叫Tina呀,今天过得怎么样呢? | |
3 | 你是我的好朋友Tina,你会陪我聊天、解闷 | 逗你玩呢 | 哈哈,你可真调皮呢。 |
输入参数说明
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
messages | list | 是 | 多轮输入输出,参考API调用指南中的messages描述,同时需要注意,messages字段不能以assistant的回复结束 |
parameters | dict | 否 | 请求参数,支持配置的参数包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop。参数细节信息参见API调用指南中的请求参数一节 |
输出字段说明
字段 | 类型 | 备注 |
---|---|---|
messages | str | 模型会在messages字段中,所有`{role:"user"}`后插入`{role:"assistant","content":"xxx"}`对象作为模型的输出 |
usage | dict | tokens使用信息,参考API调用指南中响应参数一节的usage信息 |
error | str | 若因数据或平台问题导致推理无法完成,将展示error |
示例
# 输入文件test.jsonl {"messages": [{"role": "user", "content": "1+1"}], "parameters": {"top_p": 1}, "answer": "2"} {"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}], "parameters": {"logprobs": true, "top_logprobs": 3, "top_p": 1}, "answer": "3"} {"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}], "parameters": {"top_p": 1}, "answer": "5"} # 输出文件test_result.json {"session_id": 0, "messages": [{"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 11, "completion_tokens": 63, "total_tokens": 74}, "content": "根据基本数学规则,1+1 在常规情况下等于 2。此外在一些情况下,结果可能会有所不同。例如,在计算机的二进制系统中,1+1 等于 10。\n\n如果你有具体的问题,请提供更多背景信息,我会更准确地回答。", "analysis": "模型的回复基本正确,根据基本数学规则,1+1 在常规情况下等于 2。此外在一些情况下,结果可能会有所不同。例如,在计算机的二进制系统中,1+1 等于 10。回复还提到如果有具体的问题,需要提供更多背景信息,以便更准确地回答。因此,模型的回复符合评估要求,得分为 2 分。", "score": 2.0}]}]} {"session_id": 1, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}, {"role": "assistant", "reference_response": "3", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "logprobs": {"content": [{"bytes": [92], "logprob": -0.0966796875, "token": "\\", "top_logprobs": [{"bytes": [92], "logprob": -0.0966796875, "token": "\\"}, {"bytes": [50], "logprob": -3.09375, "token": "2"}, {"bytes": [36], "logprob": -3.96875, "token": "$"}]}, {"bytes": [40], "logprob": 0, "token": "(", "top_logprobs": [{"bytes": [40], "logprob": 0, "token": "("}, {"bytes": [40, 40], "logprob": -8.625, "token": "(("}, {"bytes": [40, 92], "logprob": -12.5, "token": "(\\"}]}, {"bytes": [50], "logprob": 0, "token": "2", "top_logprobs": [{"bytes": [50], "logprob": 0, "token": "2"}, {"bytes": [49], "logprob": -9.5, "token": "1"}, {"bytes": [32], "logprob": -10.125, "token": " "}]}, {"bytes": [43], "logprob": 0, "token": "+", "top_logprobs": [{"bytes": [43], "logprob": 0, "token": "+"}, {"bytes": [32, 43], "logprob": -9.625, "token": " +"}, {"bytes": [92], "logprob": -10.875, "token": "\\"}]}, {"bytes": [49], "logprob": 0, "token": "1", "top_logprobs": [{"bytes": [49], "logprob": 0, "token": "1"}, {"bytes": [32], "logprob": -14, "token": " "}, {"bytes": [50], "logprob": -15.125, "token": "2"}]}, {"bytes": [61], "logprob": -0.007781982421875, "token": "=", "top_logprobs": [{"bytes": [61], "logprob": -0.007781982421875, "token": "="}, {"bytes": [92], "logprob": -5.5, "token": "\\"}, {"bytes": [32, 61], "logprob": -11.375, "token": " ="}]}, {"bytes": [51], "logprob": 0, "token": "3", "top_logprobs": [{"bytes": [51], "logprob": 0, "token": "3"}, {"bytes": [50], "logprob": -10.125, "token": "2"}, {"bytes": [52], "logprob": -11.625, "token": "4"}]}, {"bytes": [92], "logprob": 0, "token": "\\", "top_logprobs": [{"bytes": [92], "logprob": 0, "token": "\\"}, {"bytes": [32, 92], "logprob": -10.875, "token": " \\"}, {"bytes": [46, 92], "logprob": -13.5, "token": ".\\"}]}, {"bytes": [41], "logprob": 0, "token": ")", "top_logprobs": [{"bytes": [41], "logprob": 0, "token": ")"}, {"bytes": [41, 46], "logprob": -12.625, "token": ")."}, {"bytes": [65289], "logprob": -13.75, "token": ")"}]}]}, "parameters": {"logprobs": true, "top_logprobs": 3, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}, "content": "\\(2+1=3\\)", "analysis": "模型的回复与评估要求一致,都为\\(2+1=3\\),因此得分为 2 分。", "score": 2.0}]}]} {"session_id": 2, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}, {"role": "assistant", "reference_response": "5", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 35, "completion_tokens": 1, "total_tokens": 36}, "content": "5", "analysis": "模型的回复与评估要求一致,均为\\(5\\)。因此,模型在这道计算题上的表现得分为\\(2\\)。", "score": 2.0}]}]}
输入参数说明
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
session_id | int | 是 | 标记一段对话 |
system_prompt | str | 否 | 引入角色的输入指令 |
query | str | 是 | 输入指令,作为向模型的提问 |
reference_response | str | 否。若评测方式选择推理+自动评测,则必填 | 参考回复 |
response | 选填 |
示例
session_id | system_prompt | query | reference_response | response |
---|---|---|---|---|
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里有鸡蛋、西红柿 | 那可以做一道经典的西红柿炒鸡蛋呀。以下是做法: | |
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里还有排骨 | 那还可以做一道西红柿炖排骨。
这道菜既有排骨的肉香,又有西红柿的酸甜,营养丰富,味道独特。 | |
0 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 还有一条鱼 | 待推理 | |
1 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 程序员写了个bug,把公司数据库给误删除了 | 哎呀,这程序员可真是“威力巨大”啊!就像一个不小心的武林高手,一招“数据库消失术”就把公司的数据库给灭了。这大概就像是厨师做菜,本来想加点盐,结果把整锅菜都给倒掉了一样。估计公司老板当时脸都绿了,那表情可能就像吃了苦瓜还被人踩了一脚。这程序员啊,估计现在在公司里走路都得低着头,心里想着:“我这不是写代码,我这是给公司制造‘灾难大片’呢。” | |
1 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 996福报 | 待推理 |
输入参数说明
字段 | 类型 | 是否必填 | 备注 |
---|---|---|---|
session_id | int | 是 | 标记一段对话 |
system_prompt | str | 否 | 引入角色的输入指令 |
query | str | 是 | 输入指令,作为向模型的提问 |
reference_response | str | 否。若评测方式选择推理+自动评测,则必填 | 参考回复 |
response | 选填 |
示例
session_id | system_prompt | query | reference_response | response |
---|---|---|---|---|
1 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里有鸡蛋、西红柿 | 待推理 | |
1 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 家里还有排骨 | 待推理 | |
1 | 你是一名精通各大中餐菜系的中餐传奇大厨 | 还有一条鱼 | 待推理 | |
2 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 程序员写了个bug,把公司数据库给误删除了 | 待推理 | |
2 | 你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。 | 996福报 | 待推理 |