攻击者可能会在提示词中写入有害内容,以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务,以及诱导大模型输出泄露模型参数、系统信息等敏感信息。您可以配置提示词防护策略,让大模型应用防火墙拦截这些内容,或者以经过训练的答案代替大模型回应用户,在确保业务大模型不受破坏的同时,保障终端用户的使用体验。
您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见域名接入说明。
登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>提示词防护。
启用策略。
单击添加规则,配置规则信息。
参数 | 说明 | 示例值 |
---|---|---|
规则名称 | 输入提示词防护策略的名称。 说明
| 提示词防护1 |
访问路径 | 选择需要匹配的域名或路径。 说明 SDK 方式接入的防护域名,暂不支持匹配到路径。 | www.volcwaf001.com |
检测分类 | 关联检测分类后,大模型应用防火墙会依据对应检测分类下的词库执行动作,包括预置词库和自定义词库。配置自定义词库可参考配置自定义词库。 | 涉敏1 |
执行动作 | 检测到对应分类中的内容时,执行的处置动作。
| 优化回答 |
规则开关 | 根据需要设置是否启用该规则。 | 开启 |
单击确定。
配置完成后,提示词防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
例如,按上述示例值配置了 ID 为X000000000043
的防护规则。现用户向大模型发起请求,而大模型返回的内容中带有敏感信息,匹配到该提示词防护策略的涉敏1
词库。此时,大模型应用防火墙将优化大模型的回答,代替大模型回应用户的问题,确保输出的内容合规。相关访问日志会记录在日志详情中,您可以通过日志详情页面规则 ID 查询对应日志信息。