You need to enable JavaScript to run this app.
导航
配置提示词防护策略
最近更新时间:2025.03.28 19:07:11首次发布时间:2025.03.28 19:07:11
我的收藏
有用
有用
无用
无用

攻击者可能会在提示词中写入有害内容,以达到攻击目的。这些有害内容包括要求大模型修改自身参数、控制大模型修改或删除其所在系统服务,以及诱导大模型输出泄露模型参数、系统信息等敏感信息。您可以配置提示词防护策略,让大模型应用防火墙拦截这些内容,或者以经过训练的答案代替大模型回应用户,在确保业务大模型不受破坏的同时,保障终端用户的使用体验。

前提条件

您已将需要防护的网站接入大模型应用防火墙。接入相关操作,请参见域名接入说明

操作步骤

  1. 登录大模型应用防火墙控制台

  2. 在顶栏选择实例所属地域。

  3. 在左侧导航选择防护>大模型防护>提示词防护

  4. 启用策略。
    Image

  5. 单击添加规则,配置规则信息。
    Image

    参数

    说明

    示例值

    规则名称

    输入提示词防护策略的名称。

    说明

    • 以中文、字母、数字开头。
    • 允许字母、数字、中文、点“.”、下划线“_”和中划线“-”。
    • 长度为1-128个字符。

    提示词防护1

    访问路径

    选择需要匹配的域名或路径。

    说明

    SDK 方式接入的防护域名,暂不支持匹配到路径。

    www.volcwaf001.com

    检测分类

    关联检测分类后,大模型应用防火墙会依据对应检测分类下的词库执行动作,包括预置词库和自定义词库。配置自定义词库可参考配置自定义词库

    涉敏1

    执行动作

    检测到对应分类中的内容时,执行的处置动作。

    • 优化回答:以经过训练的答案代替原大模型回应用户,确保回复内容合规合法。
    • 观察:放行该提示词,将请求行为记录于日志中。
    • 拦截:拦截该请求行为,并记录于攻击事件中。

    优化回答

    规则开关

    根据需要设置是否启用该规则。

    开启

  6. 单击确定
    配置完成后,提示词防护规则列表会生成对应规则,规则 ID 可用于日志检索和攻击详情判断。
    Image

配置效果说明

例如,按上述示例值配置了 ID 为X000000000043的防护规则。现用户向大模型发起请求,而大模型返回的内容中带有敏感信息,匹配到该提示词防护策略的涉敏1词库。此时,大模型应用防火墙将优化大模型的回答,代替大模型回应用户的问题,确保输出的内容合规。相关访问日志会记录在日志详情中,您可以通过日志详情页面规则 ID 查询对应日志信息。
Image