[论文学习]加密友好型 LLM 架构:基于 LoRA 与 Gaussian Kernel 的同态加密隐私保护 Transformer 模型

1. 核心问题与动机

大型语言模型(LLM)如 BERT、GPT 系列,能透过使用者互动与个人化微调(fine-tuning)提供高度客製化的回应,这是其核心价值之一。

然而,这也带来严重的隐私风险:使用者资料(输入、微调资料)可能被服务提供者存取或洩露。相关法规如 GDPR、CCPA 日益严格,义大利曾暂时禁用 ChatGPT,Apple 和 Samsung 等企业也内部限制使用,凸显隐私保护的迫切性。

同态加密(Homomorphic Encryption, HE) 是解决方案之一,尤其 CKKS 方案 适合实数运算与 SIMD 平行处理,能在加密状态下进行计算,无需解密且不需通讯(相较 MPC 更易平行化)。

但 Transformer 架构带来巨大挑战:

  • 大量矩阵乘法(特别是 ciphertext-ciphertext matrix multiplication, CCMM),计算成本高。
  • 非多项式操作如 Softmax、LayerNorm、GELU 等,在 HE 下需多项式逼近,导致精度损失与深度增加(multiplicative depth),严重影响效能。
  • 先前工作多聚焦推论(inference) ,鲜少处理个人化微调(fine-tuning),而微调正是实现个人化服务的关键,计算複杂度更高。

论文动机 :设计一个HE-friendly 的 Transformer 架构 ,特别强调「微调后的推论」,在保障隐私(使用者资料全程加密)的前提下,实现可行的效能与准确度,作为隐私保护 LLM 服务的 Proof-of-Concept


2. 主要成果与方法

论文提出修改后的 HE-friendly Transformer,主要基于 BERT-style 模型,核心创新包括两个瓶颈解决方案:

  • LoRA 微调:冻结预训练权重,仅更新 LoRA 适配器(低秩矩阵),大幅减少需更新的参数(<1%)。在 HE 下,这显着降低大型 CCMM 的规模与次数,因为 LoRA 只涉及较小的矩阵运算。微调时使用多 GPU 模拟 batch 情境,支援加密资料的个人化调整。

  • Gaussian Kernel (GK) 替换 Softmax :Attention 机制中的 Softmax 是 HE 最大瓶颈(需高精度多项式逼近)。论文改用 Gaussian Kernel(高斯核),计算更简单、HE 友好,维持注意力机制的核心功能,同时减少 multiplicative depth 与精度损失。

其他 HE 优化

  • 使用 plaintext-ciphertext operations(pMult, pRot)尽可能取代 ciphertext 运算。
  • 多项式逼近非线性激活函数,针对不同下游任务优化输入范围。
  • Server-Client 模型:客户端传送加密资料,伺服器进行 HE 微调与推论,返回加密结果。採用半诚实安全模型(semi-honest),依赖 CKKS 语义安全性。

实验成果(使用 CKKS 方案,HEaaN 库等):

  • 速度提升 :微调加速 6.94x ,推论加速 2.3x(相较 baseline HE 实现)。
  • 效能维持:在多个下游任务(如 GLUE 基准、STS-B 等分类/回归任务)上,HE 版本准确度与 plaintext 模型相当,平均精度损失可控(表格显示 classification accuracy 与 precision 高度接近)。
  • 证明在加密资料上能安全处理自然语言任务,提供个人化服务的可行性。

论文包含详细的 HE 操作时间测量、矩阵乘法複杂度分析(JKLS 等算法)、多项式逼近细节与附录,实验涵盖 plaintext 与 ciphertext 两部分实作。


3. 分析与洞见

优势与创新

  • 专注个人化微调 :填补先前工作(多聚焦 inference,如 THE-X、NEXUS、Powerformer)的空白。LoRA + GK 的组合特别适合 HE 环境,平衡了隐私、效能与实用性。
  • 实务导向:非互动式(non-interactive),客户无需全程在线;支援下游任务多样性;程式码公开,便于后续研究与专案实作。
  • 权衡取捨:牺牲部分原始 Transformer 精确度(透过逼近),换取大幅加速。这在隐私关键场景(如医疗、金融、个人助理)非常有价值,符合「可用隐私」原则。
  • 可扩展性:虽然实验以 BERT 为主,但概念可推广至更大 LLM(Decoder-only 等),尤其 LoRA 已广泛用于高效微调。

限制与边缘考量

  • 模型规模:目前聚焦较小 BERT 变体,大型 LLM(如 GPT 级)可能仍面临记忆体与深度挑战,需进一步优化 packing、bootstrapping 或硬体加速。
  • 精度与稳定性:HE 下的近似计算有累积误差,长序列或複杂任务可能放大;不同任务需客製多项式逼近。
  • 安全性:仅保护使用者资料,模型权重本身未加密(伺服器持有),不防模型窃取攻击。semi-honest 假设下,若伺服器恶意,可能有侧通道风险。
  • 计算成本:即使加速,仍远高于 plaintext,适合高价值隐私场景而非即时大规模部署。Multi-GPU 支援 batch,但通讯开销需注意。
  • 相关比较:相较 Powerformer(用 BRP-max 替 Softmax),本作额外强调微调;相较互动式方法,减少通讯但计算深度更高。

专案洞见(适合 GitHub 应用):

  • 此架构适合开发隐私优先的 LLM 应用,如企业内部知识库、医疗记录分析或个人化聊天机器人。
  • 实作上,可从 GitHub repo 起步,扩展 tokenizer、支援更多任务,或整合 RAG(Retrieval-Augmented Generation)等。
  • 未来方向:结合其他 PPML 技术、GPU/硬体加速 HE、量化或稀疏化进一步优化、评估真实世界延迟与成本。

4. 结论

这篇论文提供了一个务实的 HE-friendly LLM 架构 ,透过 LoRA 与 Gaussian Kernel 有效解决 Transformer 在同态加密下的主要瓶颈,实现微调后的隐私保护推论,在效能与准确度间取得良好平衡。

它不仅是理论贡献,更是朝向「可部署的隐私保护 LLM 服务」的重要 Proof-of-Concept,尤其适用于资料保护法规严格的领域。

论文连结