suppr.wilddata.cn 文献检索,用中文搜 PubMed 一种基于大语言模型的智能搜索引擎构建方法

根据检索结果,专利CN118964589B的详细信息如下:


专利基本信息

  • 专利名称:一种基于大语言模型的智能搜索引擎构建方法
  • 授权公告号:CN118964589B
  • 授权公告日:2025年4月11日
  • 申请号:2024108105490
  • 申请日:2024年6月21日
  • 申请人:数野科技(深圳)有限公司(成立于2023年,注册资本200万人民币,主营软件和信息技术服务)

技术方案概述

该专利公开了一种基于大语言模型的智能搜索引擎构建方法,包含6个核心步骤,重点优化了查询改写模块文档重排序模块

步骤1:原始查询

用户以自然语言形式输入检索语句。

步骤2:过滤器人工设置

用户可设置多种过滤器约束召回文档,包括:

  • 时间过滤器:指定文档发布时间范围
  • 出版方过滤器:限制特定出版方文档
  • 文献影响因子过滤器:指定影响因子范围
  • 文档类型过滤器:如正式文章、时评等
步骤3:检索改写(核心创新模块)

基于用户输入的原始查询和过滤器设置,通过以下子模块转换为专业检索语句:

  1. 基于NER的动态few-shot示例

    • 从系统积累的"原始查询-改写结果"示例库中,使用命名实体识别(NER)技术召回结构相似的示例(而非仅主题相似),提升LLM改写准确率
  2. 专业术语推荐

    • 先用LLM总结原始查询的关键词列表
    • 在自建Elasticsearch术语库中检索,召回书写完全正确的专业术语,辅助精准改写
  3. 基于LLM的检索主句改写

    • 构建包含任务说明、检索引擎信息、改写原则、few-shot示例、专业术语列表和原始查询的prompt
    • 由LLM生成改写的检索主句
  4. 检索主句校验

    • 采用多轮"改写-校验"机制:若检索引擎执行报错,将错误信息反馈给LLM要求其修改
    • 提高改写语句的准确率和执行成功率
  5. 过滤器自动规划模块

    • 总体规划:通过LLM和提示词工程确定所需过滤器列表(不使用React等"贪心"型agent,提高并行性)
    • 参数确定:对每个过滤器,通过LLM确定具体参数
    • 子句生成:调用过滤器生成对应的检索子句
  6. 检索语句转换模块与主句合并

    • 将过滤器生成的子句与检索主句合并,得到最终检索语句
步骤4:检索引擎

使用检索引擎获取相关文档列表。

步骤5:文档重排序(另一核心创新)

针对冷启动阶段缺乏标注语料的问题,提出两种基于LLM的zero-shot重排序方案

  1. Pointwise重排序

    • 使用多元评分框架将文档相关性拆解为多层次评分,使排序更准确合理
  2. Listwise重排序

    • 结合快速排序/部分快速排序算法
    • 解决LLM无法通过listwise prompt一次性给出完整排序的问题
步骤6:文档总结与标引
  • 基于用户原始查询和重排序后的文档列表
  • 使用LLM总结文档内容、回答问题
  • 在作答片段后标识引用来源,方便用户事实性校验,提升可信度

主要创新点

根据专利说明,本发明在以下方面实现突破:

  1. 检索改写模块

    • 提出过滤器自动规划和检索语句转换框架,处理复杂检索需求
    • 提出基于NER的动态few-shot提示词策略,提升召回示例的参考价值
  2. 文档重排序模块

    • 提出基于LLM的pointwise重排序方案(多元评分框架)
    • 提出基于LLM的listwise重排序方案(结合快速排序算法)

技术术语解释

术语 含义
NER 命名实体识别(Named Entity Recognition)
few-shot示例 在prompt中提供少量任务示例,提升LLM完成任务的准确率
Pointwise 逐个点对点评分的排序方法
Listwise 整体列表排序方法
RAG 检索增强生成(Retrieval-Augmented Generation)
zero-shot 无需标注语料即可执行任务

检索结果补充说明

虽然直接访问专利局链接失败,但第三方来源证实该专利于2025年4月19日由数野科技(深圳)有限公司正式取得授权。专利的核心是通过LLM实现智能查询改写和文档重排序,解决了传统搜索引擎在语义理解和结果排序上的局限性。


总结:该专利构建了一套完整的基于LLM的搜索引擎技术栈,在查询改写阶段通过NER动态示例和术语推荐提升准确性,在重排序阶段通过zero-shot方案解决冷启动问题,最终通过引用标引增强结果可信度,显著提升了检索准确率与重排序合理性。

专利CN118964589B规避策略分析

绕开专利的核心是避免落入其权利要求保护范围 。必须首先获取该专利的权利要求书进行精确分析,以下策略基于专利摘要和说明书内容提供方向性建议:


第一步:精确界定保护范围

必做工作:

  1. 获取权利要求书:通过专利局或商业数据库获取完整权利要求文本
  2. 技术特征分解:将独立权利要求分解为必要技术特征(A+B+C...)
  3. 识别创新点:重点针对"基于NER的动态few-shot"和"zero-shot重排序"两大核心创新

第二步:系统性规避路径

路径一:省略非必要技术特征(最稳妥)

原理:若某特征非解决技术问题所必需,可直接删除

  • 可尝试省略
    • 移除"过滤器自动规划"模块,改为预定义过滤器模板(用户手动选择而非LLM自动规划)
    • 移除"专业术语推荐"模块,改用通用同义词扩展无需术语库的改写方式
    • 移除"检索主句校验"的多轮纠错机制,改为单次生成+人工审核
  • 风险:需验证省略后是否影响整体技术效果,避免被认定为"变劣发明"

路径二:技术特征替换(关键创新点规避)

原理:用不同技术手段实现相似功能,避免等同侵权

专利特征 规避替代方案
基于NER的动态few-shot示例 改用向量相似度检索 (非NER结构相似)或固定few-shot示例库(非动态)
过滤器自动规划(LLM+提示词工程) 改用规则引擎决策树进行过滤器选择,完全不用LLM规划
Pointwise重排序(多元评分框架) 改用Pairwise排序传统Learning to Rank模型(非LLM-based)
Listwise重排序(快速排序) 改用归并排序 或其他排序算法,或不分割列表直接处理

路径三:改变技术架构(深层规避)

原理:重构整体流程,使技术方案在结构上与专利有本质差异

  1. 检索改写模块重构

    • 专利方案:原始查询 → NER示例召回 → 术语推荐 → LLM改写 → 过滤器规划 → 合并
    • 规避方案 :原始查询 → 查询分类器多模板匹配模板填充 → 输出检索语句
    • 差异点:移除LLM生成,改用基于模板的确定性规则
  2. 重排序模块重构

    • 专利方案:文档列表 → LLM多元评分/快速排序 → 重排序结果
    • 规避方案 :文档列表 → 传统特征工程 (如BM25、TF-IDF加权)→ 贪心重排序
    • 差异点:完全不用LLM参与重排序,回归传统信息检索方法

路径四:利用专利局限性

类型 利用方式
地域性 该专利仅在中国有效,可在**海外(未申请国家)**部署相同技术
时间性 发明专利保护期20年(2044年到期),可等待到期后实施
保护范围漏洞 若权利要求未明确限定开源组件使用,可全部采用开源技术栈规避

路径五:功能裁剪+增量创新

采用TRIZ理论中的功能裁剪法:

  1. 识别核心功能:专利的核心是"提升检索准确率"而非具体实现方式
  2. 裁剪有害功能:移除"依赖LLM导致的高成本"这一潜在不足
  3. 重新组合 :将剩余功能与新的技术特征 (如用户行为反馈、知识图谱)结合,形成改进发明

第三步:具体实施建议

低风险规避方案(推荐)

python 复制代码
# 规避方案示例:用规则引擎替代LLM自动规划

# 专利方案:LLM自动规划过滤器
def original_approach(query, llm_client):
    prompt = f"为用户查询'{query}'规划需要的过滤器类型"
    filters = llm_client.generate(prompt)  # 侵权风险高
    return filters

# 规避方案:基于规则映射
def avoided_approach(query, rule_engine):
    query_type = rule_engine.classify(query)  # 改用分类器
    filters = rule_engine.get_preset_filters(query_type)  # 预定义模板
    return filters

规避要点 :移除LLM的生成决策,改用确定性规则

高风险规避方案(慎选)

  • 简单替换LLM模型:如用不同厂商LLM(仍属等同侵权)
  • 仅调整prompt措辞:不改变LLM核心作用(极易构成等同侵权)
  • 增加无关功能模块:如添加日志记录(不改变侵权实质)

第四步:法律风险防控

  1. FTO分析(自由实施) :在研发早期进行全面的专利侵权检索,确认规避方案不侵犯其他专利
  2. 专利无效检索 :检索该专利的现有技术,评估提起无效宣告的可能性
  3. 文档留痕 :详细记录规避设计的技术决策过程,证明独立研发
  4. 商业秘密保护 :对规避方案中的关键算法参数作为技术秘密保护,不公开

核心建议

策略 推荐度 说明
省略过滤器自动规划 ⭐⭐⭐⭐⭐ 最易实现,侵权风险最低
替换NER相似度算法 ⭐⭐⭐⭐ 需确保新算法在原理上有本质差异
改用传统排序模型 ⭐⭐⭐⭐ 效果可能下降但法律风险极低
海外部署 ⭐⭐⭐ 需确认目标国家无同族专利
挑战专利有效性 ⭐⭐⭐ 需找到强有力的现有技术证据

最终建议 :聘请专业专利律师+技术专家 联合分析权利要求书,制定3-5套规避方案 ,并通过专利地图分析 确认不侵犯其他相关专利。规避的核心原则是 "技术方案实质性不同" 而非"表面差异"。

相关推荐
大千AI助手41 分钟前
高维空间中的高效导航者:球树(Ball Tree)算法深度解析
人工智能·算法·机器学习·数据挖掘·大千ai助手·球树·ball-tree
新知图书41 分钟前
使用FastGPT知识库构建智能客服的示例
人工智能·ai agent·智能体·大模型应用开发·大模型应用
生信大表哥44 分钟前
GPT-5-Codex VS Gemini 3 VS Claude Sonnet 4.5 新手小白入门学习教程
人工智能·gpt·学习·rstudio·数信院生信服务器
子午1 小时前
【植物识别系统】Python+TensorFlow+Django+人工智能+深度学习+卷积神经网络算法
人工智能·python·深度学习
ONLYOFFICE1 小时前
ONLYOFFICE 文档与桌面编辑器 9.2 版本更新说明
人工智能·编辑器·onlyoffice
sensen_kiss1 小时前
INT301 Bio-computation 生物计算(神经网络)Pt.10 联想存储器与HOPFIELD网络
人工智能·深度学习·神经网络
九千七5261 小时前
sklearn学习(6)决策树
人工智能·python·学习·决策树·机器学习·sklearn
All The Way North-1 小时前
PyTorch 二分类损失函数详解:BCELoss vs BCEWithLogitsLoss 最佳实践指南
人工智能·pytorch·深度学习·机器学习·二分类损失函数
草莓熊Lotso1 小时前
Git 多人协作全流程实战:分支协同 + 冲突解决 + 跨分支协助
linux·运维·服务器·人工智能·经验分享·git·python