[论文学习] 全同态加密下的加密文字比较与子字串搜寻演算法延伸研究

Extending Homomorphic Algorithms for Encrypted Text Comparison (Scientific Reports, 2026)

核心问题与动机

当前全同态加密（Fully Homomorphic Encryption, FHE）已在数值运算与机器学习领域展现强大隐私保护能力，但现有主流 FHE 函数库（如 OpenFHE、HElib）缺乏原生字符串操作支持 ，这严重限制了 FHE 在医疗记录、法律文件、公民数据、基因组序列等以文本为主的敏感应用的落地。

现实痛点包括：

传统隐私保护搜索方案（如 Searchable Symmetric Encryption、Private Information Retrieval）常需假设「诚实但好奇」的服务器，或会泄漏访问模式（access pattern leakage）、查询频率，甚至要求多次交互。
此前基于 FHE 的字符串比对方法存在明显局限：TFHE 逐比特加密导致计算与存储成本极高；基于 Fermat's Little Theorem 的方法仅支持精确比对（exact match），无法处理子字符串搜索；Zero-Knowledge Set Membership（ZKSM）需预先定义集合，缺乏动态性；Fourier-based 方法（如 Feer 2024）则需事先知道文本结构，易造成结构性泄漏。
法规驱动（GDPR、HIPAA、中国个资法等）要求敏感文本数据在云端或多方协作情境中「全程加密、可计算、零泄漏」。

本论文的核心动机正是填补 FHE 在文本领域的关键空白 ：设计一套完全在密文域运作、无需交互、无需事先知识、支持子字符串搜索的通用算法，并与现有 FHE 框架兼容，同时兼顾安全性与实用可行性。

结果 / 成果

论文提出一套基于 CKKS 方案的新型加密字符串比较算法，主要贡献与实证成果如下：

1. 创新编码与协议设计

将 ASCII 字符串转为整数后，利用 CKKS 的 SIMD（单指令多数据）特性，将整个目标字符串（target string）复制到多个 slot 中，实现并行比对，大幅降低密文数量与运算次数。
采用 Chebyshev 多项式近似（EvalChebyshevFunction）实现绝对值与二值化（binarization），将「相符/不相符」转为可同态处理的 0/1 信号。
两阶段协议 ：
- Phase 1（比较与规范化）：逐位置同态减法 + 二值化 + 旋转 + 求和。
- Phase 2（Discard 聚合）：采用二分式乘法（dichotomic multiplication），将乘法深度从线性 O§ 降为对数 O(log p)，显著降低 noise 增长与参数需求。

2. 实现与兼容性

完整实现于 OpenFHE v1.2.4（CKKS 参数：HEStd_128_classic、FIXEDAUTO scaling、50-bit scale）。
输出结果 Y ≈ 0 表示查询字符串为目标字符串的子字符串，Y ≈ 1 表示不匹配；通过阈值（threshold t）与 Chebyshev 阶数（degree d）可调控近似误差。

3. 实验量化成果（Intel i7--1255U、16GB RAM、Ubuntu 22.04）

准确性：d=40、t≈0.017 时，单一 ASCII 单位差异即可产生清晰区分（匹配时 Y≈0，不匹配时 Y≈1）。较高 d 可进一步降低误判风险。
性能（以 s=7、n=56、p≈50 为例）：执行时间约 2--12 分钟（视 d 与 multiplicative depth m 而定），RAM 使用 2--14 GB。当 m 跨越 power-of-2 边界（例如 25）时，ring dimension 倍增，时间成本急剧上升。
最优化配置示例：p=100 时，建议 m=22、d=50，约 7 分钟、5GB RAM。
功能性优于先前工作：支持子字符串搜索、无需预先知识、密文开销较 TFHE（逐字符比特加密）大幅降低。

论文证明「在现有 FHE 框架下进行实用级加密文本比对」是可行的，并提供了完整的参数调校指南与 noise 管理策略。

分析与洞见

从多个面向深入剖析：

1. 密码学与安全性层面

CKKS 基于 RLWE（环学习错误问题），属于后量子安全（post-quantum secure）范畴，与使用者的 post-quantum ZKP 技术路线高度契合。算法全程在密文域执行，语义安全（semantic security）得以维持。但需注意实现层面的侧信道风险：时序、内存访问模式、密文属性（ring dimension、multiplicative depth）可能泄漏工作流程结构或使用行为模式。虽然不直接泄漏明文内容，但对抗「重复观察攻击」仍需额外保护（如 padding、query obfuscation）。

2. 算法效率与工程洞见

最大亮点是「紧凑编码 + 二分式聚合」：将整个字符串压缩进少数密文，并将深度从线性降至对数，这是实用化的关键。
CKKS 的近似算术特性在此反而成为优势------通过 Chebyshev 近似与阈值设计，可自然支持「近似比对」，这在真实世界文本搜索（如模糊比对、人名/地址容错）中极具价值。
参数敏感度高是主要工程挑战：d 与 m 的选择需在准确性、时间、RAM 之间取得精细平衡。论文提供的实验数据与配置表，对后续实务部署具有极高参考价值。

3. 与既有技术的比较与定位

相较于 TFHE（高成本、逐比特）、Fermat 方法（仅精确比对）、Feer（需先验知识），本方法在功能完整性 上明显领先；但在绝对速度上仍落后于专为搜索优化的方案（如 SSE）。这反映出 FHE 的通用性优势与「计算开销较高」的本质 trade-off。

4. 应用场景与产业意义

此算法可直接应用于：

隐私保护的云端文件/合约审核（与 DC Agent Audit 类似场景）
医疗记录跨机构比对
法律文件相似度搜索
基因组或生物信息文本搜索（无需暴露原始序列）

对量子科技与 Web3 领域而言，它提供了「文本层级隐私计算」的基础原语，可与 ZKP、iNFT、hybrid chain 结合，构建更完整的隐私保护数据管道。

5. 限制与现实考量

目前仍需数分钟级别的计算时间，距离实时应用尚有距离（适合离线批处理或高价值敏感任务）。
长字符串（数百字符以上）会导致 ring dimension 快速增长，内存与时间成本上升。
CKKS 的近似本质要求严谨的 noise 与阈值管理，否则可能出现边缘案例误判。
缺乏原生「正则表达式」或复杂 NLP 操作，仍需进一步扩展。

结论

本论文成功将全同态加密的应用边界从数值运算延伸至文本比较与子字符串搜索，提出了一套实现可行、功能完整、安全性有保障的解决方案。其核心贡献不仅在于算法本身，更在于证明了「现有 FHE 框架经过适当设计，即可支持实用级文本隐私计算」。

这项工作对隐私保护技术的实务落地具有重要意义：它降低了 FHE 在文本密集型应用中的门槛，为后续开发「加密文本搜索即服务」、合约智能审核、跨机构隐私数据比对等系统奠定了基础。虽然性能仍有优化空间，但论文所提供的设计原则、参数调校方法与实证数据，已足以作为后续研究与工程实现的重要参考。

未来值得延伸的方向包括：硬件加速（GPU/FPGA）、更长字符串的层次式编码、与其他 FHE 操作（排序、聚合）的组合、与 ZKP 的混合协议、以及针对特定领域（如医疗、法律）的 domain-specific 优化。

论文链接 ：

https://www.nature.com/articles/s41598-026-48255-2

DOI：10.1038/s41598--026--48255--2