大模型应用防火墙主要提供算力消耗防护、提示词识别、优化内容生成和鉴权与用量配置等功能,本文为你介绍不同功能的说明。
算力消耗防护
算力消耗是指服务器进行计算任务时所使用的计算资源的总量和程度。攻击者可通过向大模型发送特殊样本,让大模型的计算资源消耗急剧上升。这会导致原本几秒钟之内能做出响应的需求,在遭受攻击后需要大量时间计算,甚至造成服务瘫痪。大模型应用防火墙可识别这些消耗大量资源的提示词,并根据策略配置执行处置动作,确保业务稳定。
- 算力消耗量预测:大模型应用防火墙可预测指定路径下提示词输入的大模型算力消耗情况,支持以高、中、低三个档位配置对应防护策略。
- 记录或拦截请求:根据算力消耗量阈值设置处置动作,观察或拦截对应请求。可有效防止大模型遭受恶意算力消耗攻击。
输入检测
攻击者通过巧妙构造输入提示词,尝试突破大语言模型的安全防护机制,引导模型输出不符合预期甚至有害的内容。这种攻击利用了大语言模型对输入的敏感性和其在处理复杂提示词时可能出现的漏洞。大模型应用防火墙可以识别模型的输入和输出内容,根据安全需求设置不同的安全检测类型,对内容进行分类识别。并且可以提供安全判断、脆弱性类型标签,供调用方根据需要进行对应处置,有效防护提示词注入攻击和模型滥用。
- 安全性判断:基于分类模型、提示词攻击识别模型、敏感信息判断模型、敏感词表、评价控制策略能力,识别敏感内容、提示词攻击、恶意消耗资源的内容。
- 违规类型标签:提供敏感信息泄露诱导内容、提示词攻击、恶意消耗资源三类违规标签,在 API 响应参数中返回,调用方可根据标签做个性化处置。
- 自定义规则:支持接入方自定义识别规则、配置关键词黑白名单,便于匹配符合需求的检测场景。
输出过滤
大模型在处理用户请求时可能会涉及个人身份信息、电话号码、地址等敏感数据,存在未经授权的数据访问、隐私泄露等安全风险。为此,大模型应用防火墙提供完善的数据安全保护机制:
- 敏感数据检测:系统内置丰富的敏感信息识别规则,可根据预设的敏感信息标签,实时检测输入输出内容中的隐私数据。通过灵活的策略配置,有效防范数据泄露和滥用风险。
- 记录或拦截请求:根据设置的处置动作,记录或拦截可疑请求,及时阻断潜在的数据泄露风险,全面保护个人隐私和业务数据。
内容生成
大模型应用防火墙会将提示词识别模块判断为不安全的内容,转发到内容生成大模型,优化不合规的内容输入,再输出返回给用户。内容生成大模型具备严格的生成内容限制,生成的内容可替代原有大模型生成内容,在确保安全合规的前提下,保障用户的内容生成体验。
- 合规内容生成:根据输入内容生成回复,回复内容符合国家互联网信息办公室发布的《生成式人工智能服务暂行管理办法》中 5 大类 31 个小类规定。
- 流式返回:可选生成内容的流式返回,以 chunk 的方式分段返回答案,能够有效缩短首次返回的时间,提高体验感受。
- Token 统计:支持在响应参数中返回当次请求的 token 数量,便于调用方统计用量情况。
鉴权与用量配置
提供 token 鉴权能力,支持配置请求 QPS 和 token 用量上限,可根据接入方实际需求配置。
- Token 鉴权:提供可配置生效时间范围的 token,token 有效期内可调用服务。
- 用量配置:支持配置请求量、QPS 上限、token 用量的限额,防止服务被恶意使用而导致接入方损失。