[论文学习]大型语言模型的安全性、安全与隐私问题综述：核心挑战、攻击防禦与未来方向分析

On Large Language Models Safety, Security, and Privacy: A Survey (Journal of Electronic Science and Technology, ~2025)

1. 核心问题与动機（Core Problems and Motivations）

大型语言模型（LLMs）如 GPT 系列已在机器翻译、智能对话、内容生成 等领域带来革命性影响，但其广泛部署也暴露了严重的信任危机。论文指出，LLMs 面临的主要挑战包括幻觉（hallucinations） 、后门攻击（backdoor attacks） 、隐私泄露（privacy leakage） 等，这些问题严重削弱模型的可靠性和有效性。

关键动机：

先前文献常将 Safety（安全性） 、Security（安全） 和 Privacy（隐私） 混淆使用，缺乏清晰界定。这导致研究碎片化，难以系统性解决问题。
作者提出更清晰、合理的定义框架：在 LLMs 情境下，Safety 聚焦于模型输出是否符合人类价值观（如避免有害、偏见或错误内容）；Security 强调模型抵抗外部攻击（如提示注入、资料中毒）的能力；Privacy 则关注防止训练资料或使用者输入中的敏感信息泄露。
动机还包括 LLMs 的双刃剑特性：一方面提升生产力，另一方面在训练（pre-training/fine-tuning）和推论（inference）阶段都存在系统性漏洞。论文强调，随着 LLMs 应用到医疗、金融、自动驾驶等高风险领域，这些问题若未解决，可能引发严重社会与伦理后果。

论文通过全面文献回顾，填补定义混乱的空白，并为后续研究提供结构化 taxonomy（分类体系），涵盖训练与推论两个主要阶段。

2. 结果/成果（Results/Achievements）

论文的主要成果是提供一个系统性综述框架，而非提出新算法。具体包括：

定义澄清与 Taxonomy

明确区分 Safety、Security、Privacy 三者，并绘制 LLMs 生命周期中的漏洞与防御映射图（涵盖训练与推论阶段）。这是相较先前工作的重大改进，提供更合理的分类基础。

漏洞与防御全面概述：

Safety 相关：讨论幻觉、对齐（alignment）问题、偏见生成等。防御包括 RLHF（Reinforcement Learning from Human Feedback）、DPO 等对齐技术，以及安全提示工程。
Security 相关：涵盖提示注入（prompt injection）、jailbreaking、后门攻击、资料中毒（data poisoning）、模型提取攻击等。防御机制包括对抗训练、输入过滤、模型监控等。
Privacy 相关：聚焦成员推断攻击（Membership Inference Attacks）、训练资料提取、PII（Personally Identifiable Information）泄露等。防御包括差分隐私（Differential Privacy）、资料清洗、联邦学习等。

独特贡献 ：

强调 LLMs 因规模巨大、黑箱特性与上下文依赖性，带来独特的挑战（如在推论阶段的动态攻击更难防御）。论文整理了大量最新文献（截至 2025 年初），并指出多数防御在真实大规模部署中的局限性。

整体成果为研究社群提供了一份清晰的「地圖」，帮助开发者与研究者快速定位特定问题并选择对应防御策略。

3. 分析与洞见（Analysis and Insights）

多角度分析：

技术层面 ：

LLMs 的 Transformer 架构使其易受梯度泄露或提示操纵影响。训练阶段的资料污染会放大到整个模型，而推论阶段的 adversarial prompts 则能绕过安全对齐。论文强调，传统机器学习的安全技术（如差分隐私）在 LLMs 上需重新适配，因为模型参数规模庞大，计算成本高昂。

伦理与社会层面 ：

Safety 不仅是技术问题，还涉及价值对齐------模型可能在「帮助性」与「无害性」间权衡失衡。Privacy 则触及 GDPR、CCPA 等法规合规，泄露风险可能导致身份盗用或企业机密外流。

边缘案例与细微差别：

边缘案例：开放源码 vs. 封闭源码模型的安全差异；多语言或低资源语言下的不平等漏洞；自主代理（Agent）情境下，Security 与 Safety 的交互风险更高（例如代理自主决策引发连锁危害）。
权衡（Trade-offs）：加强 Privacy（例如 DP-SGD）常牺牲模型效用；过度 Safety 对齐可能降低创造力或有用性。
相关考量：与其他领域（如电脑视觉）的比较，LLMs 的自然语言特性使其攻击更「人性化」（如社会工程攻击），防御需结合人类认知模型。

主要洞见：

现有防御多为被动或碎片化，缺乏端到端（end-to-end）解决方案。LLMs 的 emergent abilities 使传统评估指标失效，需开发新 metrics（如 tail risk 评估）。
未来威胁可能来自模型自身演化（如 scheming behavior in agents）。论文呼吁跨学科合作，结合法律、伦理与技术。

4. 结论（Conclusions）

论文结论强调，尽管 LLMs 带来巨大潜力，但 Safety、Security、Privacy 是其可信赖部署的基石。作者建议未来研究方向包括：

开发更 robust 的对齐方法与混合防御框架；
探索可解释性（interpretability）以提升透明度；
针对实际应用（如边缘计算、多模态 LLMs）的专门研究；
建立标准化评估基准与法规框架。

总而言之，这篇综述不仅总结现况，更提供清晰定义与前瞻视野，呼吁社群共同努力提升 LLMs 的稳健性与可靠性，以实现安全、可信的人工智慧未来。

文章链接：

ScienceDirect：https://www.sciencedirect.com/science/article/pii/S1674862X25000023
DOI：10.1016/j.jnlest.2025.100301
ResearchGate：https://www.researchgate.net/publication/387878054_On_large_language_models_safety_security_and_privacy_A_survey