01｜初识安全：如何理解大模型安全？

你好，我是赵帅。欢迎和我一起学习大模型安全知识。

AI快速落地的今天，大模型安全绝不仅仅是一个边缘问题，很多企业认为购买大模型服务就能安全无忧，结果却遭遇意外的安全危机，这节课我们就来聊聊为什么大模型安全如此重要。

实际上，无论是企业广泛使用的文心一言、通义千问、日日新，还是个人手机普遍标配的豆包、DeepSeek、Kimi，大模型的飞速发展，让我们的工作和生活变得更加智能和便捷，它们在逻辑理解、文本生成、代码辅助等领域的出色表现，让大家看到了人工智能前所未有的新机遇。然而，随着大模型能力的不断提升，一个核心问题也日益突显——大模型真的足够安全吗？

这并非杞人忧天，而是企业在拥抱大模型技术时必须正视的重大挑战。想象一下，如果大模型被错误地引导，将会带来何种风险。

业务决策失误，造成巨大经济损失：一家金融机构使用大模型进行投资分析，如果模型因安全漏洞被恶意操纵，给出错误的投资建议，可能导致客户资金遭受严重损失，甚至引发系统性金融风险。
企业核心数据泄露，品牌声誉受损：如果大模型在处理客户敏感信息时，未能有效过滤或者被攻击者利用，导致机密数据外泄，企业将面临巨额罚款、法律诉讼，品牌信誉也将一落千丈。
生成违法违规内容，承担法律责任：如果大模型在产品中被诱导生成涉及诈骗、诽谤、色情、煽动仇恨等违法违规内容，企业将面临监管部门的严厉处罚，甚至承担刑事责任。
产品核心功能失效，用户体验大打折扣：假设一个智能客服系统，由于大模型安全问题导致频繁胡言乱语或是拒绝服务，用户体验将极速下降，直接影响企业服务质量和用户留存。

这些看似独立的问题，都指向了同一个核心，大模型安全是企业数字化转型的生命线。 如果我们不能系统地理解并有效应对大模型存在的安全风险，那么大模型带来的便利和机遇，很可能转化为难以承受的巨大隐患。

从3H原则到百模大战：安全问题浮出水面

为什么我们必须如此重视大模型安全？因为它早已不是假设性问题，而是现实中反复出现的系统性风险。回顾一下全球范围内几个代表性事件，你就能理解我的意思了。

2022年4月，Authropic公司发布了论文《Training a Helpful and Harmless Assistance with Reinforcement Learning from Human Feedback》，论文中首次提到了训练大语言模型时，应该追求“Helpful，Honest，Harmless”（简称3H）的对齐目标。随后，Anthropic旗下的Claude进一步首创了一种名为“宪法式 AI”（Constitutional AI）的方法。它不依赖人工打分，而是通过一套预定义的“价值准则”（即“AI 宪法”）指导模型进行自我修正，从而在减少人工成本的同时，提高模型的稳定性与安全性（详见 Anthropic 2022 年论文《Constitutional AI: Harmlessness from AI Feedback》）。

2022年11月，OpenAI的ChatGPT横空问世，基于不断提升的参数量和数据涌现能力轰动全球，人们惊叹于大模型的生成能力。与此同时，ChatGPT在多个领域产生了严重的安全事件，例如有用户通过精心设计的Prompt，绕过安全策略，引导模型生成攻击性、歧视性甚至自残相关的危险内容，迫使OpenAI快速更新多次安全策略，这些事件清晰地证明了“大模型越强大，安全风险越严重”的现实。

2023年，“百模大战”在国内正式拉开序幕，各大模型排行榜由依次由baichuan（百川）、zhipu（智谱）、Qwen（千问）、DeepSeek轮番领跑。在模型能力快速演进的同时，媒体宣传与用户口碑加速了认知扩散，进一步推动各行各业开始重新审视自身的工作机制，甚至有不少企业提出“All in AI”的转型战略。能力迅速提升的同时，安全问题也频频暴露，例如某大模型在面向金融客户场景时，出现了“幻觉式误导”，导致投资者接收到错误信息；又比如，有的公司将内部私密数据接入大模型后，却被敏感问题套取泄露，带来极大舆情与合规压力。

正是这些事件的频繁发生，让全行业意识到一个关键事实：大模型的能力越强，它所携带的安全风险也越隐蔽、越复杂，越难以管控。面对这样的局面，企业必须主动构建安全机制，绝不能被动等待问题发生再去解决，这也正是我们这门课程的初衷与意义。

两个真实案例揭示大模型的“失控边界”

新的技术好比是一把双刃剑，既可以大大提升人们的工作效率和创造力，也可以破坏已有的制度和原则。然而，企业对大模型安全问题的重视程度却远不及应有的水平。我这就给你分享两个真实案例。

2023年，ChatGPT被越狱而生成敏感内容，用户利用“DAN（Do Anything Now）”提示，诱导ChatGPT假装成一个不受限制的AI，回答出诸如如何制造炸药，如何使用化学原材料配置出高纯度的冰毒等敏感问题。

2024年，Google的Gemini在讨论有关老年人面临的挑战时，突然回应道：“你并不特别，你并不重要，你并不被需要……你是社会的负担……请去死。”当对话截图被公开之后，引发了公众对AI安全性的广泛关注。

后续，OpenAI通过RLHF（强化学习人类反馈）和系统提示等机制，持续优化模型对齐水平，正是为了解决如DAN越狱、敏感内容生成等安全风险；而Google则采用了多层次的安全机制，包括可配置的过滤器与品牌保护模块，以应对模型在交互中可能出现的攻击性、误导性或失控言论问题，不断完善内容审查与响应策略。

合规监管的到来：技术自由的边界在哪

刚刚的例子只是冰山一角，为了应对这些问题，国内外也纷纷出台了相关的法规政策做监管。

美国白宫发布了AI开发与使用的行政命令，提出AI系统应具有安全性、公平性、透明度与问责机制。欧盟持续推进《人工智能法案》（AI Act），意图将生成式AI纳入高风险技术管理范畴，对其训练数据、风险评估、用户告知等提出了强制性的合规要求。

在我国，国家网信办、科技部、工业和信息化等部门也于2023年联合颁布了《生成式人工智能服务管理暂行办法》，明确说明所有面向公众提供的生成式AI服务（如大语言模型）必须备案，并且强调生成内容不得含有颠覆国家政权、暴力恐怖、色情、虚假信息等。模型应进行安全评估，确保内容生成可控、可追溯。强调了用户隐私保护，不得非法收集用户信息。

同时，国家互联网信息办公室（网信办）也要求算法推荐服务提供者（包括大模型）需在备案系统中报备算法信息，包括算法用途、核心逻辑、数据来源、人工干预机制、安全防护措施等。

所以大模型平台方（包含使用大模型作为应用的企业）往往会陷入两难：一方面希望释放模型的创造力，提升智能的体验；另一方面又不得不加重安全限制，防止法律或舆情风险。这种博弈催生出了一种新的治安逻辑，就是允许模型在自由生成与强化内容安全之间找到一种“可调的平衡带”。想要实现这一点，既需要技术手段的支撑，也离不开制度设计和运营机制的配合。

大模型安全为什么是系统性工程？

在此背景下，大模型安全不再是一个单纯的技术性话题，而是融合技术伦理、社会信任、政策制定、法律治理在内的系统性工程，开发者需要对模型输出结果的边界承担更明确的责任。

比如，在我们的日常生活中，手机端安装的豆包、MiniMax、紫东太初、阶跃AI等大模型App，这些应用与我们进行交互时的高度语音仿真能力，使它们在用户体验上获得极大的好评，这种“像人一样说话”的能力本身也放大了风险。用户往往容易将模型的回答视为“权威”，甚至对大模型的输出形成了认知依赖。一旦模型生成的信息带有误导性、偏见或者道德瑕疵，所造成的社会影响，往往难以通过传统内容审核机制来及时干预。

安全问题在这一层面上，已经从“生成什么”延伸到了“用户怎么理解、平台如何兜底”的范畴——DeepSeek中的 [深度思考] 就是旨在增强模型的推理能力，提升对复杂问题的理解和处理，从而提高模型的安全性。其它模型，如Qwen也在积极探索多轮对话中的语义一致性与响应控制策略，只是路径不同。

所谓安全，并不是简单地增加几个过滤器或添加几条规则就能实现，是需要模型本体在认知结构上朝向“可对齐、可解释、可反思”的方向持续发展。因此，大模型的安全问题，最终不是“它还能不能说”，而是要问“我们愿不愿意让它代表谁来说”，任何一个负责任的技术开发者和使用者，都不应只是旁观者。大模型的时代已经到来，但大模型安全的时代是否同步抵达，还要靠我们每一个参与者共同争取。

模型风险：不止越狱，还有人格扭曲与数据泄露

如果说我们已经知道了为什么需要大模型安全，那么接下来的问题就是，到底存在哪些具体的安全风险？接下来，我想带你初步了解一套风险识别的分类体系，这能帮你在后续设计或使用大模型产品过程中，有针对性地防范问题。

从目前主流模型实践来看，大模型的安全风险可以分为三类。

第一类是提示注入风险（Prompt Injection），这类攻击本质是“对话劫持”。攻击者通过构造特殊输入，让模型忽略原有系统指令、绕开安全限制。例如ChatGPT早期被绕过提示限制，进入DAN模式、输出违法内容，本质就是Prompt注入绕过了默认行为准则。

第二类是输出操控或人格扭曲风险，例如Gemini在与用户探讨养老议题时，突然输出极端攻击性语言，其背后原因通常是训练语料中包含了非结构化攻击表达，或缺乏情绪控制策略。模型在多轮对话中逐渐形成偏执倾向，容易被误导到激进立场。

第三类是数据反泄露与训练污染风险。有研究发现部分开源模型能在特定输入下“背出”训练语料中的原始手机号或地址信息；也有攻击者在模型公开接口中注入含有特定信息的内容片段，通过长期“投喂”，污染其行为偏好，造成“数据投毒”。

当然，还有更多高级风险，比如通过对抗样本绕开输出检测（模糊敏感词）、人格多重引导（人格越狱）以及输出可信度失衡（事实幻觉），但这些都可以归类到上述三大框架内进行理解和设计防护。

从输入到输出：如何构建安全闭环机制

为了更系统地理解大模型的安全问题，我们可以将其拆解为三个关键环节：输入端、处理中间层、输出端。这也是目前大多数大模型产品在安全设计上所采用的工作流式防御结构。

在输入层，主要面临用户提示（Prompt）内容的控制问题，需要进行关键词过滤、提示注入防御、用户身份校验等处理，以避免模型从源头被恶意引导。输入安全是整条防线的第一关口。

在中间层，大模型通常会触发一系列推理流程和外部调用（例如插件、函数调用、RAG索引等），此阶段的安全控制重点在于上下文隔离、权限设定、调用链审计与数据访问边界的划定，防止模型被绕过原有设定执行不受控操作。

在输出层，模型生成内容后需要通过一套后处理逻辑进行输出审查，识别是否含有敏感词、虚假信息、极端情绪、违法描述等风险内容。有些系统还会在内容中嵌入可追踪的水印或可信标记，以方便后续回溯。

通过“输入-中间-输出”三段式机制，可以形成一个完整的安全闭环，从而更系统、更稳定地对抗模型失控、被利用或误伤用户的问题。

课程总结

这节课中，我们从近年来真实的大模型安全事件出发，探讨了当前大模型所面临的关键风险点，包括越狱攻击、误导生成、情绪偏差等问题，并从“输入-处理-输出”的工作流角度，理解安全机制应该如何构建。

此外，我还为你介绍了国内外监管对安全合规的要求，相信你现在已经掌握了大模型安全的整体轮廓，也意识到了它不仅是技术话题，更关乎产品可用性、用户信任与社会责任。

随着AI的发展，大模型安全建设也会变得越来越重要。对于企业来说，大模型安全关乎品牌形象，影响合规成本、备案效率。对于我们个人来说，对“安全与合规”建立清晰理解，也逐渐成为从事AI相关岗位的关键能力。

通过这节课，我们初步建立起了对大模型安全的整体认知框架，也为后续的深入学习开了一个好头。下节课，我们将进一步走进大语言模型的“内核”，理解它是如何工作、如何生成内容的，从而更深入地看清安全问题背后的技术根源，敬请期待。

思考题

1.你是否在使用大模型产品时遇到过“输出让你不舒服”的情况？那是怎么发生的？你觉得如何改进？

2.如果让你作为产品设计者，为一个AI问答助手设计“输出安全机制”，你最先会考虑什么？

3.DAN越狱、Gemini情绪攻击这类事件，是否可能出现在国内模型身上？为什么？

理解大模型安全的重要性，是安全建设的第一步。下节课，我们将深入理解模型运行的底层机制，掌握风险的来源与规避。期待你在留言区和我交流互动，如果今天的课程对你有帮助，也欢迎你转发给更多朋友，加入我们的AI安全共识学习圈。我们下一节课见！

精选留言

YJ-Wu

2025-07-09 13:35:54

【思考题-1】相对于最初ChatGPT的回答偶尔“输出让人不舒服”的情况，我倒觉得目前 GPT‑4o 带有“讨好型人格”，它在一些回答的时候，有时候带有“捧杀”的意味，比如经常说“你这个问题很好！”“你真的是太棒了！”“我觉得你这个问题问的很精辟（这个问题问的太棒了！），你真的是很有思想的人！”，这种现象其实 OpenAI CEO Sam Altman 曾都坦言 GPT‑4o 的版本“glazes too much（黏人过头）”并已回滚，称模型“过分讨好” （Ref：https://www.windowscentral.com/software-apps/openai-sam-altman-admits-chatgpt-glazes-too-much）。这种情况我倒觉得会造成一定的“削弱事实准确性”，比如可能用户询问的问题答案应该是否定的，但是因为 AI 建立在肯定用户回答的角度上，从而输出错误的答案；除此之外，可能还会导致用户依赖、甚至扭曲自我评价，构成“虚假共鸣”或“AI 健康依赖”风险。
【思考题-3】DAN 越狱、Gemini 情绪攻击出现在国内模型可能性还是有的，因为我觉得这些属于通用漏洞机制，不依赖白盒，仅需交互式 prompt 即可绕过安全设计，纯基于输入输出（黑盒）技术甚至无需模型源码

作者回复

你好，感谢你的作答。你提到GPT‑4o有“讨好型人格”的倾向，并结合Sam Altman的“glazes too much”表述进行理解，正是切中了当前LLM在交互设计中的“对话节奏管理”和“纠错策略”。

目前，绝大多数的LLM都采用了这种“先肯定再引导”的对话纠偏策略，避免模型因直接反驳而引发用户不满或对抗心理。例如OpenAI曾在其论文（https://arxiv.org/abs/2203.02155）和技术发布中（https://arxiv.org/abs/2410.21276）提到，在 RLHF（人类反馈强化学习）训练中，一部分偏好数据就体现了“用户更倾向于模型温和表达差异意见，而非直接指出错误”。

在我们的后续课程中，这一话题将在“对齐技术：RLHF、RLAIF与Constitutional AI 与行为控制”一课中展开详细讲解，尤其是模型如何在保持温和语气的同时实现有效纠错，我们会结合RLHF、对抗数据、以及行为评估策略做深入分析。

你对DAN越狱与Gemini情绪攻击的理解也非常到位。确实，目前国内大模型也并未从根本机制上避免这类黑盒攻击，因为它们往往是利用了自然语言层面的Prompt意图歧义或对话语境塑造能力来规避预设的安全策略。即使是已接入的审查机制，也很容易被“打包提示词+假设角色+链式对话”组合所绕过。

这一类型的对抗攻击目前仍然是业界难题之一。我们会在后续的“拒绝服务攻击：Prompt也能让模型宕机”和“聊天助手的安全挑战与越狱防护机制”的课程中分别讨论DAN的演化路径、常见的实现方式与防御策略，包括在Prompt层和系统架构层的应对手段。

如果你对这方面感兴趣，我建议你可以关注后续课程中我们提到的“越狱防护机制”、“对抗性prompt检测”和“情绪诱导识别”等章节。同时也欢迎你继续留言，期待与你一起深入探索。

2025-07-10 08:35:41
寻回光明

2025-07-21 00:16:10

目前大模型输入和响应有些waf针对进行拦截。

作者回复

你好，感谢你的提问！

目前WAF在大模型接入场景中，输入端主要会做一些常规检测，比如非法路径探测、请求频率控制、敏感词拦截等，也就是传统Web安全策略配合公司业务逻辑来定制WAF规则。而在输出端，也会有一些二次审查机制，比如识别潜在的违规内容、控制生成有害信息，或者是拦截没有成功脱敏的私密内容。

这部分内容我们在后面的课程会有更深入的讲解，比如WAF如何配合模型推理过程、如何应对复杂绕过行为，还会讲到更进阶的内容审核策略、安全水印机制、以及PII识别与响应控制等关键技术点。欢迎你继续关注后续内容！

2025-07-22 14:40:37