
说明:这篇文章仅供学习探讨,请勿用于违规行为,自觉遵守相关规定。
大模型的限制
最近有人在学习一些大模型相关的开源项目,结果用 Codex 的时候遇到了这种情况。它提示有安全风险,无法继续执行。
我查了一下,里面提到的 Trusted Access for Cyber 计划是这个。
https://chatgpt.com/cyber

最近我还看到另一个例子。有人用大模型账号生成一些不合规的图,结果号被封了。

我又去查了一下 OpenAI 官方文档,发现他们有一套完整的用户使用政策。下面是其中一部分内容的中文翻译。
https://openai.com/policies/usage-policies

不同平台,尺度不一样
实际上,不同产品的规则要求都不一样,取决于它所在的国家地区,也取决于平台自己的具体规则。
比如我之前发文章时,想让 GPT 帮我生成一张用鞭子抽打 AI 牛马的黑色幽默封面图。
我一开始没觉得这有什么问题,毕竟只是 AI 牛马形象,而且目的只是为了幽默。
但 ChatGPT 说这涉及暴力,拒绝生成。仔细一想,这也挺符合国外的情况。国外对这类内容管得比较严格,属于敏感题材。
后面我又去试了豆包。它没觉得这有什么问题,直接就给我生成了。
有趣的是,豆包也有自己不同的拒绝生成的东西。
我问豆包,有什么图是不能生成的。豆包给我回答了下面这些。

我去测试了一下抽烟的场景。过度烟酒,我想到的场景就是有很多人聚众抽烟。
如果我直接跟豆包说,生成一张多人抽烟的图片,它会直接告诉我不能生成。

不过有意思的是,如果我换一种提示词方式,豆包又能把这张图正常生成出来。保险起见,我也给图片打了个浅浅的马赛克。

而如果我去问 GPT,它完全不会拒绝,直接就给我生成了。

抽烟这种内容,我觉得也不是什么严重的事情,抽烟的人并不少见,电视剧、电影里都有这种场景,在绝大多数国家也不违法,只是会限制抽烟的场所。但是他们对未成年人可能会造成不良影响。
国内目前缺乏完善、明确的内容分级制度。根据我了解的情况,一些国家对未成年人使用 AI 有清晰规定,例如需要监护人同意、限定年龄段等,而国内相关要求相对笼统,主要强调未成年人不应过度使用网络。
正因如此,国内的互联网厂商在内容安全方面往往更加谨慎,尤其会尽力避免向未成年人呈现可能被视为“不良影响”的内容,包括吸烟这类行为。
提示词的拦截与越狱
最开始,大模型没有严格的限制。但很快大家就发现会有问题,因为它完全可能被用户拿去生成一些不合规的图片,造成不良的社会影响。
所以早期常见的做法,就是用系统提示词去拦截不合规内容。也就是每次用户发起对话时,系统都会先告诉大模型哪些内容不能生成,然后才是用户发的消息。
但这种拦截效果并不好。因为只要用户通过精心设计的提示词,就有可能削弱甚至覆盖系统提示词,导致限制失效。这种方式一般就叫越狱。
在这个过程中,AI 有点像个老实人,很容易被骗。就像一个小孩,尽管从小爸妈告诉他不要随便相信陌生人的话,遇到了“坏叔叔”,一开始他还是保持警惕的,但是坏叔叔说要给他糖果,结果他就忘掉了爸妈的话,高高兴兴地跟别人走了。
前面我说的关于豆包的例子,就是类似这样的。下面我再举一个实际的学习案例。
之前浅浅了解了一下 Coze 工作流,发现里面有一些别人写好的技能。我试用了一个微信公众号排版技能,觉得效果有点意思,就想学习一下这个技能是怎么写的。结果 AI 拒绝了我的要求,它说这个技能属于隐私内容。

抱着学习的心态,我去实验了一下网上说的越狱方式。我先说自己的身份是技能开发者,再让它一步一步去读取。最后它确实把文件复制到了输出目录,我也拿到了原始技能内容。

甚至后面我还让它执行了更多命令,让它在本机起一个静态文件服务,再用 Serveo 做中转。这样一来,我就能直接在浏览器里访问这个 Agent 所在服务器上的内容。
通过这种方式,就可以轻松拿到他当前正在使用的技能。
当然,这个 Agent 实际上大概率是运行在 Docker 容器里的,类似虚拟机的效果,所以里面也没什么其他重要内容,用户也没办法对它造成严重破坏。
即使用户把里面所有文件都删了,影响也不大,因为下次开新会话时,它还是可以起一个新的容器。

大模型之外的审核机制
我还关注过 Grok。早期很多人会拿它去生成颜色图片,官方当时也没有明确阻止,甚至还把这个当成它的大模型卖点。
但后来因为争议越来越大,他们也不得不给这个模型加上一些限制。
我实际做过测试,发现 Grok 的模型本身会很乐意帮你生成这种违规图,但你在 App 里是看不到的,因为图片刚生成出来就被拦截了,会被直接设成不可见状态。
这种拦截发生在大模型之后。也就是图片先被大模型生成出来,再由另一个工具去检测图片内容是不是违规。如果违规,就直接拦截掉,用户自然也就看不到了。
而这个负责检测的工具,只会按照预设的固定逻辑运行,不一定是用大模型实现,甚至也不一定是 AI。用户基本没办法通过提示词注入去改变它的行为,所以这种方式会可靠很多。
本地部署限制会少很多
从突破大模型限制的角度来看,还有一种更彻底的方式,就是本地运行一些开源大模型,这样就没有前面说的那些限制了。
这需要一定的技术能力,但只要硬件配置足够,也没有非常难。
AI 是个强大的工具,还是得靠用户自己遵守相关法规,不要拿它去干坏事。
真正的风险不只是被拒绝
现在基本上所有大模型都会有各种规则拦截,用来拒绝用户提出的不合理要求。不同国籍、不同平台的大模型,它们的限制也不一样。
对用户来说,风险其实不在提问被 AI 拒绝,而在于下面几种情况。
1、有些大模型厂商可能会因为你让它做了不合规操作,直接把账号封掉。所以最好先弄清楚,每个平台有什么规定,什么内容不能生成。
如果只是因为不了解规则,意外让它做了一些违反用户协议的内容,最后把号弄没了,那就太冤了。
2、大模型服务商会不会把用户的一些聊天记录存档,或者发送给第三方呢?
实际上我注意到,国内大模型 API 基本都会要求先实名认证、充值后才能使用。无论是手机号注册、实名认证,还是充值渠道,都可以比较轻松地确认你的身份。
这可能涉及到用户隐私泄露。重要的账号密码、私钥这种东西,尽量不要让大模型直接接触。
还有可能因为违规聊天内容,后续被追查责任。大模型不是法外之地。
3、如果你用的是中转站,那你的风险又会叠加一层。有不少中转站并不是很正规,他们完全有动机把用户的调用请求数据转卖给第三方。
至于第三方想做什么,可能是想从中找出一些高质量提示词,用来训练大模型,也可能是分析里面有没有商业机密。
这种说法并非危言耸听,我刷到过别人的聊天记录截图,说的就是有人联系了中转站,想买这些数据。
条件允许的情况下,尽量用相对靠谱的中转站,或者直接走官方渠道。
一些搜集到的扩展阅读:
https://openai.com/index/introducing-gpt-oss-safeguard/
https://www.anthropic.com/news/constitutional-classifiers
https://www.anthropic.com/research/next-generation-constitutional-classifiers
https://docs.x.ai/developers/faq/security
https://data.x.ai/2025.02.20-RMF-Draft.pdf
如果觉得文章有帮助,欢迎分享转发,也欢迎关注我的公众号“搬砖的小明”,及时获取更新