1. 核心问题与动机
大型语言模型(LLM)如 BERT、GPT 系列,能透过使用者互动与个人化微调(fine-tuning)提供高度客製化的回应,这是其核心价值之一。
然而,这也带来严重的隐私风险:使用者资料(输入、微调资料)可能被服务提供者存取或洩露。相关法规如 GDPR、CCPA 日益严格,义大利曾暂时禁用 ChatGPT,Apple 和 Samsung 等企业也内部限制使用,凸显隐私保护的迫切性。
同态加密(Homomorphic Encryption, HE) 是解决方案之一,尤其 CKKS 方案 适合实数运算与 SIMD 平行处理,能在加密状态下进行计算,无需解密且不需通讯(相较 MPC 更易平行化)。
但 Transformer 架构带来巨大挑战:
- 大量矩阵乘法(特别是 ciphertext-ciphertext matrix multiplication, CCMM),计算成本高。
- 非多项式操作如 Softmax、LayerNorm、GELU 等,在 HE 下需多项式逼近,导致精度损失与深度增加(multiplicative depth),严重影响效能。
- 先前工作多聚焦推论(inference) ,鲜少处理个人化微调(fine-tuning),而微调正是实现个人化服务的关键,计算複杂度更高。
论文动机 :设计一个HE-friendly 的 Transformer 架构 ,特别强调「微调后的推论」,在保障隐私(使用者资料全程加密)的前提下,实现可行的效能与准确度,作为隐私保护 LLM 服务的 Proof-of-Concept。
2. 主要成果与方法
论文提出修改后的 HE-friendly Transformer,主要基于 BERT-style 模型,核心创新包括两个瓶颈解决方案:
-
LoRA 微调:冻结预训练权重,仅更新 LoRA 适配器(低秩矩阵),大幅减少需更新的参数(<1%)。在 HE 下,这显着降低大型 CCMM 的规模与次数,因为 LoRA 只涉及较小的矩阵运算。微调时使用多 GPU 模拟 batch 情境,支援加密资料的个人化调整。
-
Gaussian Kernel (GK) 替换 Softmax :Attention 机制中的 Softmax 是 HE 最大瓶颈(需高精度多项式逼近)。论文改用 Gaussian Kernel(高斯核),计算更简单、HE 友好,维持注意力机制的核心功能,同时减少 multiplicative depth 与精度损失。
其他 HE 优化:
- 使用 plaintext-ciphertext operations(pMult, pRot)尽可能取代 ciphertext 运算。
- 多项式逼近非线性激活函数,针对不同下游任务优化输入范围。
- Server-Client 模型:客户端传送加密资料,伺服器进行 HE 微调与推论,返回加密结果。採用半诚实安全模型(semi-honest),依赖 CKKS 语义安全性。
实验成果(使用 CKKS 方案,HEaaN 库等):
- 速度提升 :微调加速 6.94x ,推论加速 2.3x(相较 baseline HE 实现)。
- 效能维持:在多个下游任务(如 GLUE 基准、STS-B 等分类/回归任务)上,HE 版本准确度与 plaintext 模型相当,平均精度损失可控(表格显示 classification accuracy 与 precision 高度接近)。
- 证明在加密资料上能安全处理自然语言任务,提供个人化服务的可行性。
论文包含详细的 HE 操作时间测量、矩阵乘法複杂度分析(JKLS 等算法)、多项式逼近细节与附录,实验涵盖 plaintext 与 ciphertext 两部分实作。
3. 分析与洞见
优势与创新:
- 专注个人化微调 :填补先前工作(多聚焦 inference,如 THE-X、NEXUS、Powerformer)的空白。LoRA + GK 的组合特别适合 HE 环境,平衡了隐私、效能与实用性。
- 实务导向:非互动式(non-interactive),客户无需全程在线;支援下游任务多样性;程式码公开,便于后续研究与专案实作。
- 权衡取捨:牺牲部分原始 Transformer 精确度(透过逼近),换取大幅加速。这在隐私关键场景(如医疗、金融、个人助理)非常有价值,符合「可用隐私」原则。
- 可扩展性:虽然实验以 BERT 为主,但概念可推广至更大 LLM(Decoder-only 等),尤其 LoRA 已广泛用于高效微调。
限制与边缘考量:
- 模型规模:目前聚焦较小 BERT 变体,大型 LLM(如 GPT 级)可能仍面临记忆体与深度挑战,需进一步优化 packing、bootstrapping 或硬体加速。
- 精度与稳定性:HE 下的近似计算有累积误差,长序列或複杂任务可能放大;不同任务需客製多项式逼近。
- 安全性:仅保护使用者资料,模型权重本身未加密(伺服器持有),不防模型窃取攻击。semi-honest 假设下,若伺服器恶意,可能有侧通道风险。
- 计算成本:即使加速,仍远高于 plaintext,适合高价值隐私场景而非即时大规模部署。Multi-GPU 支援 batch,但通讯开销需注意。
- 相关比较:相较 Powerformer(用 BRP-max 替 Softmax),本作额外强调微调;相较互动式方法,减少通讯但计算深度更高。
专案洞见(适合 GitHub 应用):
- 此架构适合开发隐私优先的 LLM 应用,如企业内部知识库、医疗记录分析或个人化聊天机器人。
- 实作上,可从 GitHub repo 起步,扩展 tokenizer、支援更多任务,或整合 RAG(Retrieval-Augmented Generation)等。
- 未来方向:结合其他 PPML 技术、GPU/硬体加速 HE、量化或稀疏化进一步优化、评估真实世界延迟与成本。
4. 结论
这篇论文提供了一个务实的 HE-friendly LLM 架构 ,透过 LoRA 与 Gaussian Kernel 有效解决 Transformer 在同态加密下的主要瓶颈,实现微调后的隐私保护推论,在效能与准确度间取得良好平衡。
它不仅是理论贡献,更是朝向「可部署的隐私保护 LLM 服务」的重要 Proof-of-Concept,尤其适用于资料保护法规严格的领域。
论文连结: