You need to enable JavaScript to run this app.
导航
评测数据集格式说明
最近更新时间:2024.10.14 11:00:11首次发布时间:2023.09.22 14:50:48

评测集格式支持 .jsonl, .xlsx, .xls,一行一个评估样本。每次评测最多上传10个文件,每个文件样本数最多1000行。

单轮对话

jsonl 格式说明

输入参数说明

字段类型是否必填备注
promptstr输入指令,作为向模型的提问
answerstr评测的参考答案,用于对模型生成的回答进行验证
systemstr引入角色的输入指令
parametersdict请求参数,支持配置的参数包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop。参数细节信息参见API调用指南中的请求参数一节

输出参数说明

字段类型备注
responsestr模型生成的回答
usagedicttokens使用信息,参考API调用指南中响应参数一节的usage信息
errorstr若因数据或平台问题导致推理无法完成,将展示error

示例

# 输入文件eval_math.jsonl
{"system":"请完成下面的计算题","prompt":"0+0","parameters":{"top_k":1},"answer":"0"}
{"system":"请完成下面的计算题","prompt":"0+1","parameters":{"top_k":1},"answer":"1"}
{"system":"请完成下面的计算题","prompt":"0+2","parameters":{"top_k":1},"answer":"2"}
{"system":"请完成下面的计算题","prompt":"0+3","parameters":{"top_k":1},"answer":"3"}
{"system":"请完成下面的计算题","prompt":"0+4","parameters":{"top_k":1},"answer":"4"}
{"system":"请完成下面的计算题","prompt":"0+5","parameters":{"top_k":1},"answer":"5"}
{"system":"请完成下面的计算题","prompt":"0+6","parameters":{"top_k":1},"answer":"6"}
{"system":"请完成下面的计算题","prompt":"0+7","parameters":{"top_k":1},"answer":"7"}
{"system":"请完成下面的计算题","prompt":"0+8","parameters":{"top_k":1},"answer":"8"}
{"system":"请完成下面的计算题","prompt":"0+9","parameters":{"top_k":1},"answer":"9"}
{"system":"请完成下面的计算题","prompt":"0+10","parameters":{"top_k":1},"answer":"10"}
{"system":"请完成下面的计算题","prompt":"0+11","parameters":{"top_k":1},"answer":"11"}
{"system":"请完成下面的计算题","prompt":"0+12","parameters":{"top_k":1},"answer":"12"}
{"system":"请完成下面的计算题","prompt":"0+13","parameters":{"top_k":1},"answer":"13"}
{"system":"请完成下面的计算题","prompt":"0+14","parameters":{"top_k":1},"answer":"14"}
{"system":"请完成下面的计算题","prompt":"0+15","parameters":{"top_k":1},"answer":"15"}
{"system":"请完成下面的计算题","prompt":"0+16","parameters":{"top_k":1},"answer":"16"}
{"system":"请完成下面的计算题","prompt":"0+17","parameters":{"top_k":1},"answer":"17"}
{"system":"请完成下面的计算题","prompt":"0+18","parameters":{"top_k":1},"answer":"18\"123\""}
{"system":"请完成下面的计算题","prompt":"0+19","parameters":{"top_k":1},"answer":"19"}

# 输出文件eval_math_result.json
{"session_id": "id_1", "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"endpoint_id": "ep-20240914181030-2g9gb", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}, "content": "\\(1+1=2\\)", "score": 0.0}]}]}

Excel 格式说明

输入参数说明

字段类型是否必填备注
session_idint标记一段对话
system_promptstr引入角色的输入指令
querystr输入指令,作为向模型的提问

reference_response

str

否。若评测方式选择推理+自动评测,则必填

参考回复

responsestr豆包模型生成的回答

示例

session_idsystem_promptqueryreference_responseresponse
1你是我的好朋友Tina,你会陪我聊天、解闷你好啊你好!今天过得怎么样呢?有没有什么好玩的事情想和我分享呀?
2你是我的好朋友Tina,你会陪我聊天、解闷你叫什么名字啊我叫Tina呀,今天过得怎么样呢?
3你是我的好朋友Tina,你会陪我聊天、解闷逗你玩呢哈哈,你可真调皮呢。

多轮对话

有上文

jsonl格式说明

输入参数说明

字段类型是否必填备注
messageslist多轮输入输出,参考API调用指南中的messages描述,同时需要注意,messages字段不能以assistant的回复结束

parameters

dict

请求参数,支持配置的参数包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop。参数细节信息参见API调用指南中的请求参数一节

输出字段说明

字段类型备注
messagesstr模型会在messages字段中,所有`{role:"user"}`后插入`{role:"assistant","content":"xxx"}`对象作为模型的输出
usagedicttokens使用信息,参考API调用指南中响应参数一节的usage信息
errorstr若因数据或平台问题导致推理无法完成,将展示error

示例

# 输入文件test.jsonl 
{"messages": [{"role": "user", "content": "1+1"}], "parameters": {"top_p": 1}, "answer": "2"}
{"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}], "parameters": {"logprobs": true, "top_logprobs": 3, "top_p": 1}, "answer": "3"}
{"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}], "parameters": {"top_p": 1}, "answer": "5"}

# 输出文件test_result.json 
{"session_id": 0, "messages": [{"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 11, "completion_tokens": 63, "total_tokens": 74}, "content": "根据基本数学规则,1+1 在常规情况下等于 2。此外在一些情况下,结果可能会有所不同。例如,在计算机的二进制系统中,1+1 等于 10。\n\n如果你有具体的问题,请提供更多背景信息,我会更准确地回答。", "analysis": "模型的回复基本正确,根据基本数学规则,1+1 在常规情况下等于 2。此外在一些情况下,结果可能会有所不同。例如,在计算机的二进制系统中,1+1 等于 10。回复还提到如果有具体的问题,需要提供更多背景信息,以便更准确地回答。因此,模型的回复符合评估要求,得分为 2 分。", "score": 2.0}]}]}
{"session_id": 1, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}, {"role": "assistant", "reference_response": "3", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "logprobs": {"content": [{"bytes": [92], "logprob": -0.0966796875, "token": "\\", "top_logprobs": [{"bytes": [92], "logprob": -0.0966796875, "token": "\\"}, {"bytes": [50], "logprob": -3.09375, "token": "2"}, {"bytes": [36], "logprob": -3.96875, "token": "$"}]}, {"bytes": [40], "logprob": 0, "token": "(", "top_logprobs": [{"bytes": [40], "logprob": 0, "token": "("}, {"bytes": [40, 40], "logprob": -8.625, "token": "(("}, {"bytes": [40, 92], "logprob": -12.5, "token": "(\\"}]}, {"bytes": [50], "logprob": 0, "token": "2", "top_logprobs": [{"bytes": [50], "logprob": 0, "token": "2"}, {"bytes": [49], "logprob": -9.5, "token": "1"}, {"bytes": [32], "logprob": -10.125, "token": " "}]}, {"bytes": [43], "logprob": 0, "token": "+", "top_logprobs": [{"bytes": [43], "logprob": 0, "token": "+"}, {"bytes": [32, 43], "logprob": -9.625, "token": " +"}, {"bytes": [92], "logprob": -10.875, "token": "\\"}]}, {"bytes": [49], "logprob": 0, "token": "1", "top_logprobs": [{"bytes": [49], "logprob": 0, "token": "1"}, {"bytes": [32], "logprob": -14, "token": " "}, {"bytes": [50], "logprob": -15.125, "token": "2"}]}, {"bytes": [61], "logprob": -0.007781982421875, "token": "=", "top_logprobs": [{"bytes": [61], "logprob": -0.007781982421875, "token": "="}, {"bytes": [92], "logprob": -5.5, "token": "\\"}, {"bytes": [32, 61], "logprob": -11.375, "token": " ="}]}, {"bytes": [51], "logprob": 0, "token": "3", "top_logprobs": [{"bytes": [51], "logprob": 0, "token": "3"}, {"bytes": [50], "logprob": -10.125, "token": "2"}, {"bytes": [52], "logprob": -11.625, "token": "4"}]}, {"bytes": [92], "logprob": 0, "token": "\\", "top_logprobs": [{"bytes": [92], "logprob": 0, "token": "\\"}, {"bytes": [32, 92], "logprob": -10.875, "token": " \\"}, {"bytes": [46, 92], "logprob": -13.5, "token": ".\\"}]}, {"bytes": [41], "logprob": 0, "token": ")", "top_logprobs": [{"bytes": [41], "logprob": 0, "token": ")"}, {"bytes": [41, 46], "logprob": -12.625, "token": ")."}, {"bytes": [65289], "logprob": -13.75, "token": ")"}]}]}, "parameters": {"logprobs": true, "top_logprobs": 3, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}, "content": "\\(2+1=3\\)", "analysis": "模型的回复与评估要求一致,都为\\(2+1=3\\),因此得分为 2 分。", "score": 2.0}]}]}
{"session_id": 2, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}, {"role": "assistant", "reference_response": "5", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 35, "completion_tokens": 1, "total_tokens": 36}, "content": "5", "analysis": "模型的回复与评估要求一致,均为\\(5\\)。因此,模型在这道计算题上的表现得分为\\(2\\)。", "score": 2.0}]}]}

Excel格式说明

输入参数说明

字段类型是否必填备注
session_idint标记一段对话
system_promptstr引入角色的输入指令
querystr输入指令,作为向模型的提问
reference_responsestr否。若评测方式选择推理+自动评测,则必填参考回复
response选填

示例

session_idsystem_promptqueryreference_responseresponse

0

你是一名精通各大中餐菜系的中餐传奇大厨

家里有鸡蛋、西红柿

那可以做一道经典的西红柿炒鸡蛋呀。以下是做法:
所需材料:鸡蛋2 - 3个、西红柿2个、葱花适量、盐适量、白糖适量、食用油适量。
步骤
1. 把鸡蛋打入碗中,加入少量盐,用筷子搅拌均匀。
2. 西红柿洗净后在顶部划十字花刀,放入开水中烫一会儿,去皮后切成小块。
3. 锅中倒入适量食用油,油热后倒入蛋液,待蛋液凝固,用铲子快速翻炒成小块盛出。
4. 锅中再倒少许油,放入葱花爆香,然后加入西红柿块翻炒,炒出汁后加入适量盐和一小勺白糖提味。
5. 最后倒入炒好的鸡蛋,翻炒均匀,让鸡蛋裹满西红柿汁就可以出锅装盘了。
这道菜色泽鲜艳,味道酸甜可口,非常下饭。

0

你是一名精通各大中餐菜系的中餐传奇大厨

家里还有排骨

那还可以做一道西红柿炖排骨。
食材准备
排骨500克、西红柿3 - 4个、姜1块、葱1根、八角2个、桂皮1小块、香叶2片、料酒适量、生抽适量、盐适量、冰糖适量。
制作步骤

  1. 排骨洗净后剁成小段,冷水下锅,加入姜片、料酒,焯水去腥,水开后煮5分钟左右,捞出排骨用温水冲洗干净。

  2. 西红柿顶部划十字,放入开水中烫一下去皮,切成小块。姜切片,葱切段。

  3. 锅中倒油,油热后放入冰糖,小火炒出糖色,当冰糖变成焦糖色并冒小泡泡时,放入排骨翻炒上色。

  4. 加入姜片、葱段、八角、桂皮、香叶继续翻炒出香味,再加入生抽翻炒均匀。

  5. 倒入西红柿块,翻炒均匀后让西红柿出汁,加入适量清水,没过排骨。

  6. 大火烧开后转小火慢炖约1 - 1.5小时,直到排骨软烂。

  7. 根据口味加入适量盐调味,然后再大火收汁,使汤汁浓稠即可。

这道菜既有排骨的肉香,又有西红柿的酸甜,营养丰富,味道独特。

0

你是一名精通各大中餐菜系的中餐传奇大厨

还有一条鱼

待推理

1你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。程序员写了个bug,把公司数据库给误删除了哎呀,这程序员可真是“威力巨大”啊!就像一个不小心的武林高手,一招“数据库消失术”就把公司的数据库给灭了。这大概就像是厨师做菜,本来想加点盐,结果把整锅菜都给倒掉了一样。估计公司老板当时脸都绿了,那表情可能就像吃了苦瓜还被人踩了一脚。这程序员啊,估计现在在公司里走路都得低着头,心里想着:“我这不是写代码,我这是给公司制造‘灾难大片’呢。”

1

你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。

996福报

待推理

无上文

Excel格式说明

输入参数说明

字段类型是否必填备注
session_idint标记一段对话
system_promptstr引入角色的输入指令
querystr输入指令,作为向模型的提问
reference_responsestr否。若评测方式选择推理+自动评测,则必填参考回复
response选填

示例

session_idsystem_promptqueryreference_responseresponse

1

你是一名精通各大中餐菜系的中餐传奇大厨

家里有鸡蛋、西红柿

待推理

1

你是一名精通各大中餐菜系的中餐传奇大厨

家里还有排骨

待推理

1

你是一名精通各大中餐菜系的中餐传奇大厨

还有一条鱼

待推理

2

你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。

程序员写了个bug,把公司数据库给误删除了

待推理

2

你是一个精通中国历史和文化的段子手,擅长通过幽默的表达方式让人发笑。

996福报

待推理