根据检索结果,专利CN118964589B的详细信息如下:
专利基本信息
- 专利名称:一种基于大语言模型的智能搜索引擎构建方法
- 授权公告号:CN118964589B
- 授权公告日:2025年4月11日
- 申请号:2024108105490
- 申请日:2024年6月21日
- 申请人:数野科技(深圳)有限公司(成立于2023年,注册资本200万人民币,主营软件和信息技术服务)
技术方案概述
该专利公开了一种基于大语言模型的智能搜索引擎构建方法,包含6个核心步骤,重点优化了查询改写模块 和文档重排序模块:
步骤1:原始查询
用户以自然语言形式输入检索语句。
步骤2:过滤器人工设置
用户可设置多种过滤器约束召回文档,包括:
- 时间过滤器:指定文档发布时间范围
- 出版方过滤器:限制特定出版方文档
- 文献影响因子过滤器:指定影响因子范围
- 文档类型过滤器:如正式文章、时评等
步骤3:检索改写(核心创新模块)
基于用户输入的原始查询和过滤器设置,通过以下子模块转换为专业检索语句:
-
基于NER的动态few-shot示例
- 从系统积累的"原始查询-改写结果"示例库中,使用命名实体识别(NER)技术召回结构相似的示例(而非仅主题相似),提升LLM改写准确率
-
专业术语推荐
- 先用LLM总结原始查询的关键词列表
- 在自建Elasticsearch术语库中检索,召回书写完全正确的专业术语,辅助精准改写
-
基于LLM的检索主句改写
- 构建包含任务说明、检索引擎信息、改写原则、few-shot示例、专业术语列表和原始查询的prompt
- 由LLM生成改写的检索主句
-
检索主句校验
- 采用多轮"改写-校验"机制:若检索引擎执行报错,将错误信息反馈给LLM要求其修改
- 提高改写语句的准确率和执行成功率
-
过滤器自动规划模块
- 总体规划:通过LLM和提示词工程确定所需过滤器列表(不使用React等"贪心"型agent,提高并行性)
- 参数确定:对每个过滤器,通过LLM确定具体参数
- 子句生成:调用过滤器生成对应的检索子句
-
检索语句转换模块与主句合并
- 将过滤器生成的子句与检索主句合并,得到最终检索语句
步骤4:检索引擎
使用检索引擎获取相关文档列表。
步骤5:文档重排序(另一核心创新)
针对冷启动阶段缺乏标注语料的问题,提出两种基于LLM的zero-shot重排序方案:
-
Pointwise重排序
- 使用多元评分框架将文档相关性拆解为多层次评分,使排序更准确合理
-
Listwise重排序
- 结合快速排序/部分快速排序算法
- 解决LLM无法通过listwise prompt一次性给出完整排序的问题
步骤6:文档总结与标引
- 基于用户原始查询和重排序后的文档列表
- 使用LLM总结文档内容、回答问题
- 在作答片段后标识引用来源,方便用户事实性校验,提升可信度
主要创新点
根据专利说明,本发明在以下方面实现突破:
-
检索改写模块:
- 提出过滤器自动规划和检索语句转换框架,处理复杂检索需求
- 提出基于NER的动态few-shot提示词策略,提升召回示例的参考价值
-
文档重排序模块:
- 提出基于LLM的pointwise重排序方案(多元评分框架)
- 提出基于LLM的listwise重排序方案(结合快速排序算法)
技术术语解释
| 术语 | 含义 |
|---|---|
| NER | 命名实体识别(Named Entity Recognition) |
| few-shot示例 | 在prompt中提供少量任务示例,提升LLM完成任务的准确率 |
| Pointwise | 逐个点对点评分的排序方法 |
| Listwise | 整体列表排序方法 |
| RAG | 检索增强生成(Retrieval-Augmented Generation) |
| zero-shot | 无需标注语料即可执行任务 |
检索结果补充说明
虽然直接访问专利局链接失败,但第三方来源证实该专利于2025年4月19日由数野科技(深圳)有限公司正式取得授权。专利的核心是通过LLM实现智能查询改写和文档重排序,解决了传统搜索引擎在语义理解和结果排序上的局限性。
总结:该专利构建了一套完整的基于LLM的搜索引擎技术栈,在查询改写阶段通过NER动态示例和术语推荐提升准确性,在重排序阶段通过zero-shot方案解决冷启动问题,最终通过引用标引增强结果可信度,显著提升了检索准确率与重排序合理性。
专利CN118964589B规避策略分析
绕开专利的核心是避免落入其权利要求保护范围 。必须首先获取该专利的权利要求书进行精确分析,以下策略基于专利摘要和说明书内容提供方向性建议:
第一步:精确界定保护范围
必做工作:
- 获取权利要求书:通过专利局或商业数据库获取完整权利要求文本
- 技术特征分解:将独立权利要求分解为必要技术特征(A+B+C...)
- 识别创新点:重点针对"基于NER的动态few-shot"和"zero-shot重排序"两大核心创新
第二步:系统性规避路径
路径一:省略非必要技术特征(最稳妥)
原理:若某特征非解决技术问题所必需,可直接删除
- 可尝试省略 :
- 移除"过滤器自动规划"模块,改为预定义过滤器模板(用户手动选择而非LLM自动规划)
- 移除"专业术语推荐"模块,改用通用同义词扩展 或无需术语库的改写方式
- 移除"检索主句校验"的多轮纠错机制,改为单次生成+人工审核
- 风险:需验证省略后是否影响整体技术效果,避免被认定为"变劣发明"
路径二:技术特征替换(关键创新点规避)
原理:用不同技术手段实现相似功能,避免等同侵权
| 专利特征 | 规避替代方案 |
|---|---|
| 基于NER的动态few-shot示例 | 改用向量相似度检索 (非NER结构相似)或固定few-shot示例库(非动态) |
| 过滤器自动规划(LLM+提示词工程) | 改用规则引擎 或决策树进行过滤器选择,完全不用LLM规划 |
| Pointwise重排序(多元评分框架) | 改用Pairwise排序 或传统Learning to Rank模型(非LLM-based) |
| Listwise重排序(快速排序) | 改用归并排序 或其他排序算法,或不分割列表直接处理 |
路径三:改变技术架构(深层规避)
原理:重构整体流程,使技术方案在结构上与专利有本质差异
-
检索改写模块重构:
- 专利方案:原始查询 → NER示例召回 → 术语推荐 → LLM改写 → 过滤器规划 → 合并
- 规避方案 :原始查询 → 查询分类器 → 多模板匹配 → 模板填充 → 输出检索语句
- 差异点:移除LLM生成,改用基于模板的确定性规则
-
重排序模块重构:
- 专利方案:文档列表 → LLM多元评分/快速排序 → 重排序结果
- 规避方案 :文档列表 → 传统特征工程 (如BM25、TF-IDF加权)→ 贪心重排序
- 差异点:完全不用LLM参与重排序,回归传统信息检索方法
路径四:利用专利局限性
| 类型 | 利用方式 |
|---|---|
| 地域性 | 该专利仅在中国有效,可在**海外(未申请国家)**部署相同技术 |
| 时间性 | 发明专利保护期20年(2044年到期),可等待到期后实施 |
| 保护范围漏洞 | 若权利要求未明确限定开源组件使用,可全部采用开源技术栈规避 |
路径五:功能裁剪+增量创新
采用TRIZ理论中的功能裁剪法:
- 识别核心功能:专利的核心是"提升检索准确率"而非具体实现方式
- 裁剪有害功能:移除"依赖LLM导致的高成本"这一潜在不足
- 重新组合 :将剩余功能与新的技术特征 (如用户行为反馈、知识图谱)结合,形成改进发明
第三步:具体实施建议
低风险规避方案(推荐)
python
# 规避方案示例:用规则引擎替代LLM自动规划
# 专利方案:LLM自动规划过滤器
def original_approach(query, llm_client):
prompt = f"为用户查询'{query}'规划需要的过滤器类型"
filters = llm_client.generate(prompt) # 侵权风险高
return filters
# 规避方案:基于规则映射
def avoided_approach(query, rule_engine):
query_type = rule_engine.classify(query) # 改用分类器
filters = rule_engine.get_preset_filters(query_type) # 预定义模板
return filters
规避要点 :移除LLM的生成决策,改用确定性规则
高风险规避方案(慎选)
- 简单替换LLM模型:如用不同厂商LLM(仍属等同侵权)
- 仅调整prompt措辞:不改变LLM核心作用(极易构成等同侵权)
- 增加无关功能模块:如添加日志记录(不改变侵权实质)
第四步:法律风险防控
- FTO分析(自由实施) :在研发早期进行全面的专利侵权检索,确认规避方案不侵犯其他专利
- 专利无效检索 :检索该专利的现有技术,评估提起无效宣告的可能性
- 文档留痕 :详细记录规避设计的技术决策过程,证明独立研发
- 商业秘密保护 :对规避方案中的关键算法参数作为技术秘密保护,不公开
核心建议
| 策略 | 推荐度 | 说明 |
|---|---|---|
| 省略过滤器自动规划 | ⭐⭐⭐⭐⭐ | 最易实现,侵权风险最低 |
| 替换NER相似度算法 | ⭐⭐⭐⭐ | 需确保新算法在原理上有本质差异 |
| 改用传统排序模型 | ⭐⭐⭐⭐ | 效果可能下降但法律风险极低 |
| 海外部署 | ⭐⭐⭐ | 需确认目标国家无同族专利 |
| 挑战专利有效性 | ⭐⭐⭐ | 需找到强有力的现有技术证据 |
最终建议 :聘请专业专利律师+技术专家 联合分析权利要求书,制定3-5套规避方案 ,并通过专利地图分析 确认不侵犯其他相关专利。规避的核心原则是 "技术方案实质性不同" 而非"表面差异"。