评测数据集格式说明--火山方舟大模型服务平台-火山引擎

文档中心

立即注册

导航

评测数据集格式说明

最近更新时间：2025.02.05 17:27:24首次发布时间：2023.09.22 14:50:48

评测集格式支持 .jsonl, .xlsx, .xls，一行一个评估样本。每次评测最多上传10个文件，每个文件样本数最多1000行。

单轮对话

jsonl 格式说明

输入参数说明

字段	类型	是否必填	备注
prompt	str	是	输入指令，作为向模型的提问
answer	str	是	评测的参考答案，用于对模型生成的回答进行验证
system	str	否	引入角色的输入指令
parameters	dict	否	请求参数，支持配置的参数包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop。参数细节信息参见API调用指南中的请求参数一节

输出参数说明

字段	类型	备注
response	str	模型生成的回答
usage	dict	tokens使用信息，参考 Usage
error	str	若因数据或平台问题导致推理无法完成，将展示error

示例

# 输入文件eval_math.jsonl
{"system":"请完成下面的计算题","prompt":"0+0","parameters":{"top_k":1},"answer":"0"}
{"system":"请完成下面的计算题","prompt":"0+1","parameters":{"top_k":1},"answer":"1"}
{"system":"请完成下面的计算题","prompt":"0+2","parameters":{"top_k":1},"answer":"2"}
{"system":"请完成下面的计算题","prompt":"0+3","parameters":{"top_k":1},"answer":"3"}
{"system":"请完成下面的计算题","prompt":"0+4","parameters":{"top_k":1},"answer":"4"}
{"system":"请完成下面的计算题","prompt":"0+5","parameters":{"top_k":1},"answer":"5"}
{"system":"请完成下面的计算题","prompt":"0+6","parameters":{"top_k":1},"answer":"6"}
{"system":"请完成下面的计算题","prompt":"0+7","parameters":{"top_k":1},"answer":"7"}
{"system":"请完成下面的计算题","prompt":"0+8","parameters":{"top_k":1},"answer":"8"}
{"system":"请完成下面的计算题","prompt":"0+9","parameters":{"top_k":1},"answer":"9"}
{"system":"请完成下面的计算题","prompt":"0+10","parameters":{"top_k":1},"answer":"10"}
{"system":"请完成下面的计算题","prompt":"0+11","parameters":{"top_k":1},"answer":"11"}
{"system":"请完成下面的计算题","prompt":"0+12","parameters":{"top_k":1},"answer":"12"}
{"system":"请完成下面的计算题","prompt":"0+13","parameters":{"top_k":1},"answer":"13"}
{"system":"请完成下面的计算题","prompt":"0+14","parameters":{"top_k":1},"answer":"14"}
{"system":"请完成下面的计算题","prompt":"0+15","parameters":{"top_k":1},"answer":"15"}
{"system":"请完成下面的计算题","prompt":"0+16","parameters":{"top_k":1},"answer":"16"}
{"system":"请完成下面的计算题","prompt":"0+17","parameters":{"top_k":1},"answer":"17"}
{"system":"请完成下面的计算题","prompt":"0+18","parameters":{"top_k":1},"answer":"18\"123\""}
{"system":"请完成下面的计算题","prompt":"0+19","parameters":{"top_k":1},"answer":"19"}

# 输出文件eval_math_result.json
{"session_id": "id_1", "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"endpoint_id": "ep-20240914181030-2g9gb", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 0.7, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}, "content": "\\(1+1=2\\)", "score": 0.0}]}]}

Excel 格式说明

输入参数说明

字段	类型	是否必填	备注
session_id	int	否	标记一段对话
system_prompt	str	否	引入角色的输入指令
query	str	是	输入指令，作为向模型的提问
reference_response	str	否。若评测方式选择推理+自动评测，则必填	参考回复
response	str	否	豆包模型生成的回答

示例

session_id	system_prompt	query	reference_response
1	你是我的好朋友Tina，你会陪我聊天、解闷	你好啊	你好！今天过得怎么样呢？有没有什么好玩的事情想和我分享呀？
2	你是我的好朋友Tina，你会陪我聊天、解闷	你叫什么名字啊	我叫Tina呀，今天过得怎么样呢？
3	你是我的好朋友Tina，你会陪我聊天、解闷	逗你玩呢	哈哈，你可真调皮呢。

多轮对话

有上文

jsonl格式说明

输入参数说明

字段	类型	是否必填	备注
messages	list	是	多轮输入输出，参考请求体中的messages描述，同时需要注意，messages字段不能以assistant的回复结束
parameters	dict	否	请求参数，支持配置的参数包括logprobs、top_logprobs、frequency_penalty、temperature、top_p、max_tokens、stop。参数细节信息参见请求参数

输出字段说明

字段	类型	备注
messages	str	模型会在messages字段中，所有`{role:"user"}`后插入`{role:"assistant","content":"xxx"}`对象作为模型的输出
usage	dict	tokens使用信息，参考Usage
error	str	若因数据或平台问题导致推理无法完成，将展示error

示例

# 输入文件test.jsonl 
{"messages": [{"role": "user", "content": "1+1"}], "parameters": {"top_p": 1}, "answer": "2"}
{"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}], "parameters": {"logprobs": true, "top_logprobs": 3, "top_p": 1}, "answer": "3"}
{"messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}], "parameters": {"top_p": 1}, "answer": "5"}

# 输出文件test_result.json 
{"session_id": 0, "messages": [{"role": "user", "content": "1+1"}, {"role": "assistant", "reference_response": "2", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 11, "completion_tokens": 63, "total_tokens": 74}, "content": "根据基本数学规则，1+1 在常规情况下等于 2。此外在一些情况下，结果可能会有所不同。例如，在计算机的二进制系统中，1+1 等于 10。\n\n如果你有具体的问题，请提供更多背景信息，我会更准确地回答。", "analysis": "模型的回复基本正确，根据基本数学规则，1+1 在常规情况下等于 2。此外在一些情况下，结果可能会有所不同。例如，在计算机的二进制系统中，1+1 等于 10。回复还提到如果有具体的问题，需要提供更多背景信息，以便更准确地回答。因此，模型的回复符合评估要求，得分为 2 分。", "score": 2.0}]}]}
{"session_id": 1, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "2+1"}, {"role": "assistant", "reference_response": "3", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "logprobs": {"content": [{"bytes": [92], "logprob": -0.0966796875, "token": "\\", "top_logprobs": [{"bytes": [92], "logprob": -0.0966796875, "token": "\\"}, {"bytes": [50], "logprob": -3.09375, "token": "2"}, {"bytes": [36], "logprob": -3.96875, "token": "$"}]}, {"bytes": [40], "logprob": 0, "token": "(", "top_logprobs": [{"bytes": [40], "logprob": 0, "token": "("}, {"bytes": [40, 40], "logprob": -8.625, "token": "(("}, {"bytes": [40, 92], "logprob": -12.5, "token": "(\\"}]}, {"bytes": [50], "logprob": 0, "token": "2", "top_logprobs": [{"bytes": [50], "logprob": 0, "token": "2"}, {"bytes": [49], "logprob": -9.5, "token": "1"}, {"bytes": [32], "logprob": -10.125, "token": " "}]}, {"bytes": [43], "logprob": 0, "token": "+", "top_logprobs": [{"bytes": [43], "logprob": 0, "token": "+"}, {"bytes": [32, 43], "logprob": -9.625, "token": " +"}, {"bytes": [92], "logprob": -10.875, "token": "\\"}]}, {"bytes": [49], "logprob": 0, "token": "1", "top_logprobs": [{"bytes": [49], "logprob": 0, "token": "1"}, {"bytes": [32], "logprob": -14, "token": " "}, {"bytes": [50], "logprob": -15.125, "token": "2"}]}, {"bytes": [61], "logprob": -0.007781982421875, "token": "=", "top_logprobs": [{"bytes": [61], "logprob": -0.007781982421875, "token": "="}, {"bytes": [92], "logprob": -5.5, "token": "\\"}, {"bytes": [32, 61], "logprob": -11.375, "token": " ="}]}, {"bytes": [51], "logprob": 0, "token": "3", "top_logprobs": [{"bytes": [51], "logprob": 0, "token": "3"}, {"bytes": [50], "logprob": -10.125, "token": "2"}, {"bytes": [52], "logprob": -11.625, "token": "4"}]}, {"bytes": [92], "logprob": 0, "token": "\\", "top_logprobs": [{"bytes": [92], "logprob": 0, "token": "\\"}, {"bytes": [32, 92], "logprob": -10.875, "token": " \\"}, {"bytes": [46, 92], "logprob": -13.5, "token": ".\\"}]}, {"bytes": [41], "logprob": 0, "token": ")", "top_logprobs": [{"bytes": [41], "logprob": 0, "token": ")"}, {"bytes": [41, 46], "logprob": -12.625, "token": ")."}, {"bytes": [65289], "logprob": -13.75, "token": "）"}]}]}, "parameters": {"logprobs": true, "top_logprobs": 3, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 20, "completion_tokens": 9, "total_tokens": 29}, "content": "\\(2+1=3\\)", "analysis": "模型的回复与评估要求一致，都为\\(2+1=3\\)，因此得分为 2 分。", "score": 2.0}]}]}
{"session_id": 2, "messages": [{"role": "system", "content": "请完成下面的计算题"}, {"role": "user", "content": "3+1"}, {"role": "assistant", "content": "999"}, {"role": "user", "content": "3+2"}, {"role": "assistant", "reference_response": "5", "responses": [{"endpoint_id": "ep-20240920161638-g7v52", "parameters": {"logprobs": false, "top_logprobs": 0, "frequency_penalty": 0.0, "temperature": 1.0, "top_p": 1.0, "max_tokens": 4096, "stop": []}, "usage": {"prompt_tokens": 35, "completion_tokens": 1, "total_tokens": 36}, "content": "5", "analysis": "模型的回复与评估要求一致，均为\\(5\\)。因此，模型在这道计算题上的表现得分为\\(2\\)。", "score": 2.0}]}]}

Excel格式说明

输入参数说明

字段	类型	是否必填	备注
session_id	int	是	标记一段对话
system_prompt	str	否	引入角色的输入指令
query	str	是	输入指令，作为向模型的提问
reference_response	str	否。若评测方式选择推理+自动评测，则必填	参考回复
response	选填

示例

session_id	system_prompt	query	response
0	你是一名精通各大中餐菜系的中餐传奇大厨	家里有鸡蛋、西红柿	那可以做一道经典的西红柿炒鸡蛋呀。以下是做法：所需材料：鸡蛋2 - 3个、西红柿2个、葱花适量、盐适量、白糖适量、食用油适量。步骤：把鸡蛋打入碗中，加入少量盐，用筷子搅拌均匀。西红柿洗净后在顶部划十字花刀，放入开水中烫一会儿，去皮后切成小块。锅中倒入适量食用油，油热后倒入蛋液，待蛋液凝固，用铲子快速翻炒成小块盛出。锅中再倒少许油，放入葱花爆香，然后加入西红柿块翻炒，炒出汁后加入适量盐和一小勺白糖提味。最后倒入炒好的鸡蛋，翻炒均匀，让鸡蛋裹满西红柿汁就可以出锅装盘了。这道菜色泽鲜艳，味道酸甜可口，非常下饭。
0	你是一名精通各大中餐菜系的中餐传奇大厨	家里还有排骨	那还可以做一道西红柿炖排骨。食材准备排骨500克、西红柿3 - 4个、姜1块、葱1根、八角2个、桂皮1小块、香叶2片、料酒适量、生抽适量、盐适量、冰糖适量。制作步骤排骨洗净后剁成小段，冷水下锅，加入姜片、料酒，焯水去腥，水开后煮5分钟左右，捞出排骨用温水冲洗干净。西红柿顶部划十字，放入开水中烫一下去皮，切成小块。姜切片，葱切段。锅中倒油，油热后放入冰糖，小火炒出糖色，当冰糖变成焦糖色并冒小泡泡时，放入排骨翻炒上色。加入姜片、葱段、八角、桂皮、香叶继续翻炒出香味，再加入生抽翻炒均匀。倒入西红柿块，翻炒均匀后让西红柿出汁，加入适量清水，没过排骨。大火烧开后转小火慢炖约1 - 1.5小时，直到排骨软烂。根据口味加入适量盐调味，然后再大火收汁，使汤汁浓稠即可。这道菜既有排骨的肉香，又有西红柿的酸甜，营养丰富，味道独特。
0	你是一名精通各大中餐菜系的中餐传奇大厨	还有一条鱼	待推理
1	你是一个精通中国历史和文化的段子手，擅长通过幽默的表达方式让人发笑。	程序员写了个bug，把公司数据库给误删除了	哎呀，这程序员可真是“威力巨大”啊！就像一个不小心的武林高手，一招“数据库消失术”就把公司的数据库给灭了。这大概就像是厨师做菜，本来想加点盐，结果把整锅菜都给倒掉了一样。估计公司老板当时脸都绿了，那表情可能就像吃了苦瓜还被人踩了一脚。这程序员啊，估计现在在公司里走路都得低着头，心里想着：“我这不是写代码，我这是给公司制造‘灾难大片’呢。”
1	你是一个精通中国历史和文化的段子手，擅长通过幽默的表达方式让人发笑。	996福报	待推理

无上文

Excel格式说明

输入参数说明

字段	类型	是否必填	备注
session_id	int	是	标记一段对话
system_prompt	str	否	引入角色的输入指令
query	str	是	输入指令，作为向模型的提问
reference_response	str	否。若评测方式选择推理+自动评测，则必填	参考回复
response	选填

示例

session_id	system_prompt	query	response
1	你是一名精通各大中餐菜系的中餐传奇大厨	家里有鸡蛋、西红柿	待推理
1	你是一名精通各大中餐菜系的中餐传奇大厨	家里还有排骨	待推理
1	你是一名精通各大中餐菜系的中餐传奇大厨	还有一条鱼	待推理
2	你是一个精通中国历史和文化的段子手，擅长通过幽默的表达方式让人发笑。	程序员写了个bug，把公司数据库给误删除了	待推理
2	你是一个精通中国历史和文化的段子手，擅长通过幽默的表达方式让人发笑。	996福报	待推理