
EICopilot: Search and Explore Enterprise Information over Large-scale Knowledge Graphs with LLM-driven Agents
文章摘要
本文介绍了EICopilot,一个基于大语言模型的企业信息搜索智能体系统。该系统能够自动生成Gremlin脚本,在大规模知识图谱中进行企业信息的智能搜索和探索,相比传统方法,语法错误率降低至10%,执行正确率达82.14%。
原文PDF请通过 https://t.zsxq.com/VUjGv 获取
往期推荐
企业级智能知识库构建三种架构解析:Vanilla RAG、GraphRAG与智能体RAG的选择指南及BMW等跨国公司实践案例
[290页电子书]打造企业级知识图谱的实战手册,Neo4j 首席科学家力作!从图数据库基础到图原生机器学习
[50 页演讲 PPT]当向量数据库崩溃时:基于图的RAG在知识密集企业中的智能知识平台深度解析---writer
基于知识图谱增强大模型的企业级智能知识库独角兽Glean获1.5亿美元F轮融资,估值72亿美元
官宣!KGDATA智能知识库正式上架 AWS Marketplace|让全球业务知识管理「合规 + 高效」
从传统 RAG 到知识图谱 + Agent,知识库 AI 问答成功率终于达到 95% 了,来自蚂蚁集团的经验
基于知识增强大模型的企业级知识库之二:如何从非结构化内容中提取知识
GraphRAG从研发到上线的挑战-硅谷企业级大模型知识库独角兽Glean系列之三
企业级知识库为什么要用GraphRAG - 硅谷企业级ChatGPT独角兽Glean系列之二
企业智能知识库企业Glean利用GraphRAG融资2.6亿美元
引言:企业信息检索的挑战与机遇
在数字化时代,企业注册数据构成了庞大的在线知识图谱,包含法人信息、注册资本、主要股东等关键数据,为互联网用户提供了宝贵的企业信息资源。然而,传统的企业信息检索方式存在显著挑战,需要复杂的文本查询和手动子图探索,往往导致耗时且容易出错的过程。
现实场景:传统检索的痛点
想象一个金融分析师需要调查某公司主要股东是否投资了餐饮企业的场景。传统方法下,分析师必须:
-
手动查询
:首先搜索目标公司的主要股东信息
-
逐层探索
:手动跟踪链接到代表这些股东投资组合的子图
-
关系分析
:评估每个投资节点的持股比例和财务影响
-
深度挖掘
:当某些投资节点代表其他公司时,需要进行更多层次的分析
这个过程不仅时间消耗大,还容易遗漏重要关系或难以解读复杂的投资网络。

EICopilot:革命性的解决方案
面对这些挑战,我们提出了EICopilot------一个部署在百度企业搜索平台上的聊天机器人系统,利用大语言模型的能力来理解自然语言查询,自动生成和执行Gremlin脚本,提供复杂企业关系的高效摘要。
系统核心特性
EICopilot的独特之处在于其三大核心特性:
-
数据预处理管道
:编译和注释代表性查询到向量数据库中,用于上下文学习(ICL)
-
综合推理管道
:结合思维链(Chain-of-Thought)和ICL来增强Gremlin脚本生成
-
新颖的查询掩码策略
:通过改进意图识别来提高脚本准确性
技术架构与规模
EICopilot基于Apache TinkerPop构建的企业图数据库,包含:
-
数亿个节点
-
数百亿条边
-
千亿级节点/边属性
-
数百万个子图
,反映中国数百万家注册公司、企业和组织的状况

技术创新:三大突破性贡献
1. 数据预处理创新
EICopilot采用独特的数据预处理管道:
第一步:真实查询收集
系统从通用搜索引擎收集与企业信息相关的真实网络搜索查询,包括公司名称、法人实体和财务报告等。
第二步:代表性查询筛选
选择具有代表性的查询作为种子数据集,开发人员使用Gremlin语言为每个查询精心编写搜索脚本。
第三步:向量数据库构建
通过精心的数据标注和增强,构建包含这些代表性查询及其脚本的向量数据库。
2. 查询掩码策略突破
传统的向量数据库搜索往往基于相同的实体名称(如公司名称)进行查询匹配,而不是基于相似的搜索意图。EICopilot发现,有时需要具有相似意图的示例,如那些涉及公司财务状况或实际控制人的查询,它们在脚本中具有相似的语法或逻辑。
核心发现:掩码查询中的实体名称可以提高意图匹配的准确性。
基于这一发现,EICopilot提出了新颖的查询掩码策略,通过掩码查询中的特定实体来改进ICL示例匹配,准确解释用户意图,提高查询脚本生成的精度。

3. 综合推理管道
EICopilot在处理在线请求时,使用基于思维链(CoT)和ICL的综合推理管道提供精确的查询响应。这种方法确保查询不仅在其复杂性方面被理解,而且以更高的精度和与用户意图的相关性被执行。

卓越性能:实证评估结果
性能指标
经过广泛的实证评估,EICopilot在速度和准确性方面显著优于基线方法:
-
语法错误率
:降低至低至10.00%
-
执行正确率
:高达82.14%
-
日活用户
:实际部署中达到5000名日活用户
掩码策略效果对比
通过对比分析三种匹配策略的效果:
-
原始匹配策略:提取未掩码的查询,结果与目标实体的一般详细信息相关,但不涉及特定搜索意图
-
代表性查询实体掩码:虽然专注于不同公司,但与在线查询的搜索意图密切一致
-
完全实体掩码:通过掩码在线和代表性查询中的实体,增强对搜索意图的关注,实现更好的泛化和捕获更广泛的查询含义
结论:完全实体掩码被证明是最有效的方法,它始终生成相关且主题一致的查询,通过与原始搜索意图密切一致来提高脚本生成的质量和适用性。
相关工作讨论
技术背景
EICopilot的方法论涉及几个关键领域:
文本到SQL转换(Text2SQL):传统的自然语言到SQL翻译面临模式集成和查询措辞等挑战。
检索增强生成(RAG):RAG通过外部数据库增强LLM,减少幻觉并提高准确性。
信息检索(IR):传统IR系统通常依赖关键词匹配,在同义词、多义词和上下文差距方面存在困难。
技术优势
EICopilot通过使用LLM结合ICL和先进的掩码策略,克服了传统IR的局限性,提升了语义理解能力并减少了人工干预。通过生成Gremlin脚本和应用ICL,系统还解决了模式差异问题,使其成为企业信息检索领域的领先解决方案。
实际应用价值
目标用户群体
EICopilot特别适用于以下专业用户群体:
-
金融分析师
:需要深入分析企业股权结构和投资关系
-
投资机构
:评估目标企业的关联方和投资风险
-
合规审查人员
:调查企业实际控制人和关联交易
-
商业情报分析师
:挖掘企业间的复杂关系网络
应用场景
尽职调查:快速获取目标企业的完整股权结构和关联方信息
风险评估:识别隐藏的关联交易和潜在风险点
竞争分析:了解竞争对手的投资布局和战略方向
监管合规:协助监管机构进行企业关联关系调查
技术实现细节
离线阶段:数据基础建设
在离线阶段,EICopilot重点进行数据准备和丰富,以有效支持后续的在线操作。通过构建丰富的种子数据存储库,配合高效的数据增强策略,进一步增强了系统生成精确查询响应的能力。
在线阶段:实时查询处理
在线阶段,系统利用预先构建的向量数据库和推理管道,实现对用户自然语言查询的实时理解和处理,自动生成相应的Gremlin脚本并执行查询操作。
未来发展方向
技术优化
-
多语言支持
:扩展对更多语言的自然语言理解能力
-
实时性能提升
:进一步优化查询响应速度
-
知识图谱扩展
:支持更多类型的企业数据和关系
应用拓展
-
跨境企业分析
:支持全球企业信息的整合分析
-
行业细分
:针对特定行业的深度分析功能
-
预测性分析
:基于历史数据进行趋势预测
结论
EICopilot代表了企业信息搜索领域的重大技术突破。通过创新的查询掩码策略、综合推理管道和自动化脚本生成技术,系统在大规模知识图谱的查询和摘要方面取得了显著进展。
关键创新包括:
-
自动Gremlin脚本生成
-
精确意图识别的新颖掩码策略
-
ICL示例匹配的改进方法
这些技术创新不仅提高了查询效率和准确性,还为大规模知识图谱的探索和利用树立了新的标杆,将彻底改变企业信息检索的用户体验。
对于企事业单位和投资机构而言,EICopilot提供了一个强大的工具,能够快速、准确地获取复杂的企业关系信息,支持更明智的商业决策和风险管控。