Prompt 调优(提示词调优)支持几个核心能力,即:
在调试页面,目的是让用户能使用样例数据试验 Prompt 的效果,根据回答调试修改 Prompt,并提供评分和参考答案。完成调试后,单击添加至评测集,此条数据可用于下一步的批量系统性优化。
在生成模型回答前,我们需要填写变量内容,变量是 Prompt 中的占位符(类似{{变量名}}的槽位),与 Prompt 一起构成一个样本的提问部分,用于发送给大模型以获取其回答。支持两种填写变量的方式。
变量生成的规则可包含:限制要求、指定格式、示例等。
当完成了变量内容的填充以后,单击生成模型回答按钮,模型的回答会流式地在右侧展示。
右上角可以调整模型配置,包括
Temperature
、Top P
。具体配置见请求体中对应参数配置建议。
用户可以对模型的输出按照满意程度从 1-5 分进行评分。评分会和参考答案一起用于后续系统性的 Prompt 智能优化,为模型理解用户需求,优化 Prompt 提供指引和方向。
用户需要提供对于当前变量数据,期望获得的参考答案(可以在模型回答的基础上进行修改,提高编辑效率)。
参考答案会和评分一起用于后续系统性的 Prompt 优化,为模型理解需求,优化 Prompt 提供指引和方向。
单击 添加至评测集 按钮,此条数据将会被添加至评测集,会在下一环节的批量页面显示。
顶部切换至批量页签。批量页面用于批量处理和准备用于系统性 Prompt 智能优化的评测集。数据准备可以通过上传文件批量导入数据,或者 AI 批量生成来完成。
单击上传文件,现在仅支持 XLSX 格式的文件,文件中必须包含的内容是变量内容,列名必须和 Prompt 中的变量命名保持一致,列名无需包含“{{}}”。
选填列名:参考答案、模型回答、评分、评分分析。注意,列名必须保持一致,否则导入时将会被忽略。
当您的数据量不足,或者希望增加数据量,可以使用两种方式。
方舟支持您制定数据规则,然后让 AI 为您自动生成数据。
方舟也支持您手动编辑下方数据表格,来扩展。
单击 AI 生成变量左侧…按钮,单击添加行,您可以将数据手动逐条添加到表格中。
方舟也支持两种方式为回答进行评分。
自动评分是利用模型的能力对模型回答进行打分,但是在开始自动评分前,需要先输入评分标准,告诉模型什么样的结果是理想的可以打 5 分,什么样的结果是欠佳的。模型会基于给出的评分标准对答案进行批量的评分。评分标准的输入方式和示例参考附录。
说明
模型自动生成的评分理由与评分仅供参考,建议人工对自动打分的结果进行仔细复查与修改,如果评分结果有误将会影响后续 Prompt 优化的方向与结果。
一旦确定为所有回答评分,新的 AI 评分会覆盖原本已经有记录的评分,且数据不能找回。
人工对模型回答进行评分,给出相应的评分理由(可选)。
在批量页面您可以进行导出数据、版本比对、列筛选等操作。
支持导出数据为 XLSX 格式。
版本比对功能用于比对在同样的变量数据的输入下,不同版本的 Prompt 的效果。
批量页面中信息较多,若用户觉得想要聚焦查看某列信息的话,可以把其他列信息隐藏。
说明
当优化完成后,单击查看优化报告,跳转到优化后的版本,查看优化前后 2 个版本的比对结果。
默认开启两个版本 Prompt 的文本比对器,将会高亮显示文本的区别。
除了对比优化后版本与其父版本的对比,还支持优化后版本与其任意祖先版本的对比。
柱状图会展示前后两个版本的评分分布情况。
在图表下会展示全量的数据详情,并可以筛选 评分上升/评分下降 / 评分不变 的数据,进行分别查看。
优化后版本的评分为 AI 评分,建议用户进行校验核对,并提供评分理由,以方便后续继续优化。
如果当前任务有增量数据需要一同纳入 Prompt 优化过程中,你只需要回到批量页面,上传 / 生成新的数据,完成参考答案和评分信息的输入,重新单击优化即可。
对于不再需要的任务,在 Prompt 调优界面的右上角,可以单击“删除任务”。
注意
任务删除后不可恢复,务必谨慎操作。