[论文学习]加密友好型 LLM 架构：基于 LoRA 与 Gaussian Kernel 的同态加密隐私保护 Transformer 模型

大型语言模型（LLM）如 BERT、GPT 系列，能透过使用者互动与个人化微调（fine-tuning）提供高度客製化的回应，这是其核心价值之一。

然而，这也带来严重的隐私风险：使用者资料（输入、微调资料）可能被服务提供者存取或洩露。相关法规如 GDPR、CCPA 日益严格，义大利曾暂时禁用 ChatGPT，Apple 和 Samsung 等企业也内部限制使用，凸显隐私保护的迫切性。

同态加密（Homomorphic Encryption, HE） 是解决方案之一，尤其 CKKS 方案 适合实数运算与 SIMD 平行处理，能在加密状态下进行计算，无需解密且不需通讯（相较 MPC 更易平行化）。

但 Transformer 架构带来巨大挑战：

大量矩阵乘法（特别是 ciphertext-ciphertext matrix multiplication, CCMM），计算成本高。
非多项式操作如 Softmax、LayerNorm、GELU 等，在 HE 下需多项式逼近，导致精度损失与深度增加（multiplicative depth），严重影响效能。
先前工作多聚焦推论（inference） ，鲜少处理个人化微调（fine-tuning），而微调正是实现个人化服务的关键，计算複杂度更高。

论文动机 ：设计一个HE-friendly 的 Transformer 架构 ，特别强调「微调后的推论」，在保障隐私（使用者资料全程加密）的前提下，实现可行的效能与准确度，作为隐私保护 LLM 服务的 Proof-of-Concept。

论文提出修改后的 HE-friendly Transformer，主要基于 BERT-style 模型，核心创新包括两个瓶颈解决方案：

LoRA 微调：冻结预训练权重，仅更新 LoRA 适配器（低秩矩阵），大幅减少需更新的参数（<1%）。在 HE 下，这显着降低大型 CCMM 的规模与次数，因为 LoRA 只涉及较小的矩阵运算。微调时使用多 GPU 模拟 batch 情境，支援加密资料的个人化调整。
Gaussian Kernel (GK) 替换 Softmax ：Attention 机制中的 Softmax 是 HE 最大瓶颈（需高精度多项式逼近）。论文改用 Gaussian Kernel（高斯核），计算更简单、HE 友好，维持注意力机制的核心功能，同时减少 multiplicative depth 与精度损失。

其他 HE 优化：

使用 plaintext-ciphertext operations（pMult, pRot）尽可能取代 ciphertext 运算。
多项式逼近非线性激活函数，针对不同下游任务优化输入范围。
Server-Client 模型：客户端传送加密资料，伺服器进行 HE 微调与推论，返回加密结果。採用半诚实安全模型（semi-honest），依赖 CKKS 语义安全性。

实验成果（使用 CKKS 方案，HEaaN 库等）：

速度提升 ：微调加速 6.94x ，推论加速 2.3x（相较 baseline HE 实现）。
效能维持：在多个下游任务（如 GLUE 基准、STS-B 等分类/回归任务）上，HE 版本准确度与 plaintext 模型相当，平均精度损失可控（表格显示 classification accuracy 与 precision 高度接近）。
证明在加密资料上能安全处理自然语言任务，提供个人化服务的可行性。

论文包含详细的 HE 操作时间测量、矩阵乘法複杂度分析（JKLS 等算法）、多项式逼近细节与附录，实验涵盖 plaintext 与 ciphertext 两部分实作。

优势与创新：

专注个人化微调 ：填补先前工作（多聚焦 inference，如 THE-X、NEXUS、Powerformer）的空白。LoRA + GK 的组合特别适合 HE 环境，平衡了隐私、效能与实用性。
实务导向：非互动式（non-interactive），客户无需全程在线；支援下游任务多样性；程式码公开，便于后续研究与专案实作。
权衡取捨：牺牲部分原始 Transformer 精确度（透过逼近），换取大幅加速。这在隐私关键场景（如医疗、金融、个人助理）非常有价值，符合「可用隐私」原则。
可扩展性：虽然实验以 BERT 为主，但概念可推广至更大 LLM（Decoder-only 等），尤其 LoRA 已广泛用于高效微调。

限制与边缘考量：

模型规模：目前聚焦较小 BERT 变体，大型 LLM（如 GPT 级）可能仍面临记忆体与深度挑战，需进一步优化 packing、bootstrapping 或硬体加速。
精度与稳定性：HE 下的近似计算有累积误差，长序列或複杂任务可能放大；不同任务需客製多项式逼近。
安全性：仅保护使用者资料，模型权重本身未加密（伺服器持有），不防模型窃取攻击。semi-honest 假设下，若伺服器恶意，可能有侧通道风险。
计算成本：即使加速，仍远高于 plaintext，适合高价值隐私场景而非即时大规模部署。Multi-GPU 支援 batch，但通讯开销需注意。
相关比较：相较 Powerformer（用 BRP-max 替 Softmax），本作额外强调微调；相较互动式方法，减少通讯但计算深度更高。

专案洞见（适合 GitHub 应用）：

此架构适合开发隐私优先的 LLM 应用，如企业内部知识库、医疗记录分析或个人化聊天机器人。
实作上，可从 GitHub repo 起步，扩展 tokenizer、支援更多任务，或整合 RAG（Retrieval-Augmented Generation）等。
未来方向：结合其他 PPML 技术、GPU/硬体加速 HE、量化或稀疏化进一步优化、评估真实世界延迟与成本。

这篇论文提供了一个务实的 HE-friendly LLM 架构 ，透过 LoRA 与 Gaussian Kernel 有效解决 Transformer 在同态加密下的主要瓶颈，实现微调后的隐私保护推论，在效能与准确度间取得良好平衡。

它不仅是理论贡献，更是朝向「可部署的隐私保护 LLM 服务」的重要 Proof-of-Concept，尤其适用于资料保护法规严格的领域。

论文连结：

arXiv：https://arxiv.org/abs/2410.02486
PDF：https://arxiv.org/pdf/2410.02486
GitHub 程式码：https://github.com/Donghwan-Rho/Encryption-friendly_LLM_Architecture