[论文学习]大型语言模型的安全与隐私: 威胁分类、伦理意涵与治理框架

Security and Privacy of Large Language Models: Threat Taxonomy, Ethical Implications, and Governance (M. Pribisalić et al., AI 2026)

核心问题与动机

大型语言模型（LLM）正快速部署于专业与社会领域，带来超越传统软体漏洞的安全、隐私与治理挑战。传统软体安全模型（如 OWASP Top 10）仅能部分涵盖，因为 LLM 的风险主要源自概率生成机制、大规模资料摄取、Transformer 架构的 next-token prediction 目标，以及训练与部署生态系的複杂性，而非孤立的程式码缺陷。

主要动机 ：模型开发速度远超监管与治理框架的演进，导致可靠度、问责制与信任问题。现有研究多针对单一风险类别（如提示注入、隐私洩漏或偏见），缺乏统一的生命週期（lifecycle）视角，涵盖资料获取、模型训练、对齐（alignment）、部署与后续互动阶段。

本文透过「对齐差距（alignment gap）」概念作为核心框架，解释训练目标与真实世界互动之间的结构性落差，如何导致持久性漏洞。

论文强调，LLM 的行为是统计关联的结果，而非基于事实或逻辑规则，因此易产生幻觉（hallucination）、偏见放大与恶意利用。动机还包括回应网路犯罪生态系中 AI 辅助攻击的增加，以及资料主权、知识产权与社会影响的挑战。

结果／成果

本文为叙述性回顾（narrative review），综合 251 篇参考文献，提出以下关键贡献，形成「统一生命週期模型」（unified lifecycle model）：

生命週期导向的威胁分类法（Lifecycle-based Taxonomy）

将攻击依攻击者控制点分类，包括互动层（prompt injection、jailbreaking）、概率利用层（adversarial manipulation）与训练阶段攻击（data poisoning 等）。图表展示攻击如何从提示层级向上传播至模型深层。
对齐差距框架

解释预训练概率行为与后训练对齐（如 RLHF、DPO）之间的落差，如何在推论阶段显现，导致安全指令被绕过。
社会技术风险模型（Socio-technical Risk Model）

四层架构------技术层（概率生成、隐私洩漏）、人类行为层（验证漂移、自动化偏误）、组织层（Shadow AI、问责扩散）与治理层（法规遵从）。说明单一技术缓解不足，需跨层处理。
防禦纵深映射（Defense-in-Depth Mapping）

连结缓解策略与攻击类别及生命週期阶段，包括训练层隐私保护、推论时防护、部署控制与治理机制。

其他成果包括领域特定风险分析（如教育、金融）、监管框架讨论（如 EU AI Act），以及研究差距识别。论文提供多张概念图、表格（如 OWASP 演进对比），强化可视化理解。

分析与洞见

架构根源：Transformer 的自注意力机制与大规模参数化使模型成为训练资料的压缩表示，增加记忆化（memorization）风险。规模越大，记忆化越强，但也放大偏见与隐私问题。对齐技术仅调整表面行为，未根本改变潜在表徵。
威胁动态：提示注入与 jailbreaking 利用概率本质，易透过精心措辞绕过安全；训练阶段攻击影响模型基础；部署后则有资料萃取与误用风险。隐私风险涵盖 PII 洩漏、资料主权与知识产权。
伦理与社会意涵：幻觉、偏见放大可能影响医疗、法律等高风险领域，导致法律责任与公众信任下降。社会技术视角强调人类过度依赖（overreliance）与认知影响，如教育中的学术诚信问题。
治理挑战：传统法规不足以应对生成式 AI，需适应性监督、责任分配与跨领域审计。论文连结技术漏洞与更广泛社会后果，主张「安全-by-design」方法。

边缘考量：开放模型 vs. 封闭模型的差异、多模态扩展、量化与微调引入的新攻击向量，以及 Shadow AI 在组织内的隐藏风险。论文也讨论基准测试（如 HELM、DecodingTrust）在标准化评估中的角色，但指出其仍不足以涵盖所有生命週期风险。

多角度洞见：从技术视角看，风险源自概率本质；从伦理看，是资料偏差与对齐不完全的产物；从治理看，需平衡创新与责任。意涵包括企业需採用生命週期风险管理，研究者应聚焦跨领域缓解，以及政策制定者需推动国际标准。

结论

论文结论强调，LLM 风险主要来自系统性结构因素，而非孤立缺陷，因此需要生命週期导向的防禦纵深策略：结合技术防护（如差分隐私、运行时监控）、隐私保护训练、治理机制与持续评估，以实现负责任部署。

文章连结

MDPI 原页：https://www.mdpi.com/2673-2688/7/5/152
DOI：https://doi.org/10.3390/ai7050152