配置提示词防护策略--大模型应用防火墙-火山引擎

文档中心

导航

配置提示词防护策略

最近更新时间：2025.03.28 19:07:11首次发布时间：2025.03.28 19:07:11

攻击者可能会在提示词中写入有害内容，以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务，以及诱导大模型输出泄露模型参数、系统信息等敏感信息。您可以配置提示词防护策略，让大模型应用防火墙拦截这些内容，或者以经过训练的答案代替大模型回应用户，在确保业务大模型不受破坏的同时，保障终端用户的使用体验。

前提条件

您已将需要防护的网站接入大模型应用防火墙。接入相关操作，请参见域名接入说明。

操作步骤

登录大模型应用防火墙控制台。
在顶栏选择实例所属地域。
在左侧导航选择防护>大模型防护>提示词防护。
启用策略。

单击添加规则，配置规则信息。

参数	说明	示例值
规则名称	输入提示词防护策略的名称。说明以中文、字母、数字开头。允许字母、数字、中文、点“.”、下划线“_”和中划线“-”。长度为1-128个字符。	提示词防护1
访问路径	选择需要匹配的域名或路径。说明 SDK 方式接入的防护域名，暂不支持匹配到路径。	www.volcwaf001.com
检测分类	关联检测分类后，大模型应用防火墙会依据对应检测分类下的词库执行动作，包括预置词库和自定义词库。配置自定义词库可参考配置自定义词库。	涉敏1
执行动作	检测到对应分类中的内容时，执行的处置动作。优化回答：以经过训练的答案代替原大模型回应用户，确保回复内容合规合法。观察：放行该提示词，将请求行为记录于日志中。拦截：拦截该请求行为，并记录于攻击事件中。	优化回答
规则开关	根据需要设置是否启用该规则。	开启

单击确定。
配置完成后，提示词防护规则列表会生成对应规则，规则 ID 可用于日志检索和攻击详情判断。

配置效果说明

例如，按上述示例值配置了 ID 为X000000000043的防护规则。现用户向大模型发起请求，而大模型返回的内容中带有敏感信息，匹配到该提示词防护策略的涉敏1词库。此时，大模型应用防火墙将优化大模型的回答，代替大模型回应用户的问题，确保输出的内容合规。相关访问日志会记录在日志详情中，您可以通过日志详情页面规则 ID 查询对应日志信息。