You need to enable JavaScript to run this app.
导航
Prompt 调优
最近更新时间:2024.12.16 15:39:02首次发布时间:2024.12.16 15:39:02

Prompt 调优(提示词调优)支持几个核心能力,即:

  • 调试:手动单条精细化调试,准备数据。针对生成的 Prompt 进行调试,包括 Prompt 中的变量自动生成、Prompt 自动优化等。
  • 批量:批量准备数据,上传或者使用之前调试和评估结果。这其中支持根据 Prompt 批量生成模型答案,以及自动或手动打分。
  • 智能优化:根据准备好的数据,来自动优化 Prompt。

1.调试

在调试页面,目的是让用户能使用样例数据试验 Prompt 的效果,根据回答调试修改 Prompt,并提供评分和参考答案。完成调试后,单击添加至评测集,此条数据可用于下一步的批量系统性优化。

1.1 填写变量

在生成模型回答前,我们需要填写变量内容,变量是 Prompt 中的占位符(类似{{变量名}}的槽位),与 Prompt 一起构成一个样本的提问部分,用于发送给大模型以获取其回答。支持两种填写变量的方式。

  • 手动填写。
    手动输入数据内容,用于验证 Prompt 在此数据上的回答效果。当使用 AI 生成变量功能时,会参考手动添加的数据作为例子,所以手动输入几条高质量种子数据,将会提高 AI 辅助生成的数据质量和多样性。否则 AI 辅助生成的数据可能会比较宽泛。
  • AI 生成变量内容。
    单击 AI 生成变量内容,模型会根据 Prompt 上下文信息和变量的含义,先生成用于生成变量的规则,再用规则生成变量内容,用户也可以修改生成的规则,再用调整后的新的规则生成变量内容。

变量生成的规则可包含:限制要求、指定格式、示例等。

1.2 生成模型回答

当完成了变量内容的填充以后,单击生成模型回答按钮,模型的回答会流式地在右侧展示。

右上角可以调整模型配置,包括TemperatureTop P。具体配置见请求体中对应参数配置建议。

1.3 评分

用户可以对模型的输出按照满意程度从 1-5 分进行评分。评分会和参考答案一起用于后续系统性的 Prompt 智能优化,为模型理解用户需求,优化 Prompt 提供指引和方向。

1.4 给出参考答案

用户需要提供对于当前变量数据,期望获得的参考答案(可以在模型回答的基础上进行修改,提高编辑效率)。
参考答案会和评分一起用于后续系统性的 Prompt 优化,为模型理解需求,优化 Prompt 提供指引和方向。

1.5 添加至评测集

单击 添加至评测集 按钮,此条数据将会被添加至评测集,会在下一环节的批量页面显示。

2.批量

顶部切换至批量页签。批量页面用于批量处理和准备用于系统性 Prompt 智能优化的评测集。数据准备可以通过上传文件批量导入数据,或者 AI 批量生成来完成。

2.1 上传数据

单击上传文件,现在仅支持 XLSX 格式的文件,文件中必须包含的内容是变量内容,列名必须和 Prompt 中的变量命名保持一致,列名无需包含“{{}}”。
选填列名:参考答案、模型回答、评分、评分分析。注意,列名必须保持一致,否则导入时将会被忽略。

2.2 增加数据(可选)

当您的数据量不足,或者希望增加数据量,可以使用两种方式。

通过 AI 自动生成

方舟支持您制定数据规则,然后让 AI 为您自动生成数据。

  1. 单击 AI 生成变量 右侧下拉箭头,单击变量生成规则,编辑规则。
  2. 回到批量页面,单击 AI 生成变量按钮,填写您要生成的数量,单击确定后。
  3. 方舟为您批量生成数据。结果显示在下方表格表格中。

通过手动编辑表格

方舟也支持您手动编辑下方数据表格,来扩展。
单击 AI 生成变量左侧…按钮,单击添加行,您可以将数据手动逐条添加到表格中。

2.3 评估回答质量

方舟也支持两种方式为回答进行评分。

AI 评分

自动评分是利用模型的能力对模型回答进行打分,但是在开始自动评分前,需要先输入评分标准,告诉模型什么样的结果是理想的可以打 5 分,什么样的结果是欠佳的。模型会基于给出的评分标准对答案进行批量的评分。评分标准的输入方式和示例参考附录。

说明

模型自动生成的评分理由与评分仅供参考,建议人工对自动打分的结果进行仔细复查与修改,如果评分结果有误将会影响后续 Prompt 优化的方向与结果。

  1. 单击评分列右侧 ▶️ 按钮。
  2. 单击评分标准,输入并保存。
  3. 选择为所有回答评分/ 为未评分的回答评分。

一旦确定为所有回答评分,新的 AI 评分会覆盖原本已经有记录的评分,且数据不能找回。

手动评分

人工对模型回答进行评分,给出相应的评分理由(可选)。

更多

在批量页面您可以进行导出数据、版本比对、列筛选等操作。

下载数据

支持导出数据为 XLSX 格式。
Image

版本比对

版本比对功能用于比对在同样的变量数据的输入下,不同版本的 Prompt 的效果。
Image

  1. 单击表格右上角的 + 图标。
  2. 选择想要比对的版本。
  3. 查看比对结果。

Image

列名显示设置

批量页面中信息较多,若用户觉得想要聚焦查看某列信息的话,可以把其他列信息隐藏。
Image

  1. 单击上方的眼睛图标。
  2. 打开/隐藏选中的列名。

3.智能优化

3.1 启动智能优化

  1. 当完成数据准备后,切换至智能优化页签。
  2. 单击 “已准备好数据,开始智能优化”。
  3. 等待 10~30 分钟,查看评估报告。

说明

  • 尽量多地为数据打分并提供参考答案,有助于算法提升算法优化的效果。
  • 等待过程中,方舟支持实时观测优化结果,您可以单击实时优化结果,可以打开查看中间过程。
  • 中间结果会实时更新为当前最佳 Prompt,如果没有下载,被覆盖的历史中间优化结果将不可找回。

3.2 查看优化报告

当优化完成后,单击查看优化报告,跳转到优化后的版本,查看优化前后 2 个版本的比对结果。

版本对比

默认开启两个版本 Prompt 的文本比对器,将会高亮显示文本的区别。
Image
除了对比优化后版本与其父版本的对比,还支持优化后版本与其任意祖先版本的对比。

分数分布

柱状图会展示前后两个版本的评分分布情况。

详细数据

在图表下会展示全量的数据详情,并可以筛选 评分上升/评分下降 / 评分不变 的数据,进行分别查看。

优化后版本的评分为 AI 评分,建议用户进行校验核对,并提供评分理由,以方便后续继续优化。

更多

增量优化

如果当前任务有增量数据需要一同纳入 Prompt 优化过程中,你只需要回到批量页面,上传 / 生成新的数据,完成参考答案和评分信息的输入,重新单击优化即可。

  1. 上传文件/生成数据。
  2. 输入参考答案&评分。
  3. 切换到智能优化子页面。
  4. 单击“已准备好数据,开始智能优化” 。
  5. 查看优化过程与结果。

删除任务

对于不再需要的任务,在 Prompt 调优界面的右上角,可以单击“删除任务”。

注意

任务删除后不可恢复,务必谨慎操作。