Palantir的核心是Ontology

最近Palantir突然又火了,刷到了好多分析它的文章。很多文章写的很专业,我没有那么专业,理论水平也还十分有限,仅仅是谈一谈自己的理解。

早期知识图谱以语义网(Semantic Web)链接数据(Linked Data)技术等为代表,当代知识图谱则以Google Knowledge Graph (融合了更早的产品FreeBase 项目)、Wikidata 等项目为代表。传统的语义网主要关注本体层,强调树形层级体系(Hierarchy )和知识推理,形成了以RDFRDFSOWL的语义网技术体系,代表产品就是斯坦福Protégé 。语义网的知识表达非常直观,推理计算能力强,但存在难以规模化、依赖领域专家构建的问题。Linked Data是数据层面的语义信息,可以理解为更加通用的网页超链接,可以方便数据资源的相互关联,但是语义层次比较低,未在业务应用领域发挥作用。Knowledge Graph核心是通过更先进的NLP技术(基于机器学习)实现非结构化数据的知识抽取,使得能够从网页等文档获取大量具体的知识,促进了实体抽取、关系抽取、事件抽取等技术的大量研究和应用。Wikidata项目,作为目前规模最大的开源知识图谱项目,将概念和实例统称为object,属性和关系统一为propertyobjectproperty都是item,虽然对对象属性有明确定义,但总体上更加关注实例层。

与传统知识图谱或学术研究中的本体不一样的是,Ontology是更加全面的知识图谱平台。

首先,Ontology同时包含本体层和实例层。对比传统知识图谱,Ontology明确包括本体层和实例层,本体层通过领域专家构建(这一点显然是从语义网发展而来),实例层则通过Pipeline Builder、NLP、大模型等技术进行自动化构建。Ontology对业务领域中的各类对象进行统一建模,AIP利用大模型能力实现业务数据与Ontology的对齐,成为现实世界的数字孪生。

第二,Ontology具有更全面的元知识类型 。不仅包括对象事件属性数据类型 等静态知识,还包括**函数(Function) 行动(Action)**动态知识。传统知识图谱是相对静态的,它的新增、修改、删除、扩展等是由另一套程序负责,比如信息抽取算法或者人工管理操作。Ontology将业务逻辑与数据管理逻辑无缝关联起来,在业务状态发生变化时,自动驱动相关Create Update Delete改变系统内的知识状态,从而与真实世界同步;同时又通过系统知识状态的改变,驱动下游业务的真实动作,例如安排物流运输,或者执行无人机侦察任务。行动是对对象、事件等实体状态进行改变的操作,包括修改对象及其属性的新增、修改、删除等操作。函数是一种可以自定义输入与输出的数据转换逻辑,可以用于定义数据转换、数据修改逻辑,同时其输入输出参数不是任意数据,而是与Ontology中定义的对象/事件/数据类型关联。

第三,Ontology支持更丰富的数据类型 。在本体中,数据类型也是一种元知识。不管是对象、事件、属性,还是函数、逻辑、行动,都需要更底层的数据结构进行描述,以便计算机能够存储和计算。除了最基本的布尔、数值(整数,小数)、文本、日期,较为复杂的元组/列表、集合、字典/哈希表、JSON等,还支持对象时序空间对象GEO向量等数据类型。其中GEO支持点、线、面等类型。时序则是包含时间和具体数值的序列,例如车辆位置,人的工作经历。向量虽然本质上是由小数构成的列表,但对于建立向量索引、支持语义检索非常重要,单独处理更加方便。此外,支持自定义数据类型,根据业务需要直接定义,无需定制开发。这种能力好比编程语言,开发人员基于语法规则可以设计非常复杂的数据结构,Ontology让项目实施人员或用户具备相当的能力。

第四,Ontology提供混合异构的数据存储 。简单知识图谱系统采用一款图数据库 (如Neo4j )即可。而Ontology的数据模型更加复杂且数据类型多样化,单一数据库选型显然是不够的。Ontology以基于某种图数据库存储的知识图谱为核心,还包括时序数据库 (OpenTSDB?)、空间数据库 (PostGIS?)、向量数据库 (FaiSS或Chroma?)、对象数据库 (HDFS,存储文档文件、图片等)、全文索引 (Lucene或ElasticSearch?)等。如此复杂的存储系统势必要求进行良好的分层结构设计,逐层封装抽象,保证底层具体存储选型与接口访问对于上层应用透明无感,也能支持根据特定需求进行针对性选择。此外,需要充分考虑业务需求,提供常见的API,这些API将不仅被上层代码调用,也用于大模型进行复杂任务推理与规划。Ontology核心存储引擎(图数据库或对象数据库)主要存储知识图谱主体结构,对于时序数据、空间数据、向量数据、文档内容数据等,单独存储,图谱中只需要保存对应数据的引用(如URIUUID)。

第五,Ontology知识管理更加完整灵活 。在更加丰富完备的数据类型和知识类型基础上,通过增加相关元信息 ,更加便于数据存储、查询以及跨系统交互。例如,可以将事故分析报告建模为一种"文档"类型对象,为了支持语义检索,为该对象增加semanticVector的属性,该属性的数据类型是向量。为了实现向量索引和检索,还需要向量维度、相似度检索方法、索引结构、向量化模型等。为了支持这样完整地定义,对"向量"这一数据类型本身本身也是作为一种知识进行管理和定义。因此,Ontology支持完整自洽的知识和元知识管理,最终将复杂的上层的对人直观友好表示的知识,转换为底层逻辑严谨的可存储可计算的数据结构。大多数软件系统设计很难做到这一点,有的知识表示过于低层次,对用户来说不直观且工作量大,有的则针对特定业务逻辑进行设计而不能够灵活扩展。Ontology这套强大的知识管理体系,使得项目实施人员能够真正做到FDE(Forward Deploy Engineering),避免定制开发成本,而这一设计理念和能力不只是体现在Ontology种,还包括Data集成、模型集成、流程构建等,几乎包括了信息化、数字化、智能化的所有必要基础软件基础。

作为AIP的核心,Ontology不仅为各类业务知识提供直观表示与、高效存储&查询、推理,也是一种更加彻底的面向对象思维方式,更重要的是,作为一套完善的工具体系,覆盖了业务场景中建模、处理、分析、展示、决策等诸多需求,极大减少了定制开发工作量。软件研发团队既可以围绕一套技术体系进行持续完善,还可以快速定制出大量更加业务化的产品,从而降低项目实施成本、提高项目复用性。当然,整个系统架构的庞大复杂也必然带来管理、维护、升级等过程的复杂性,工程师们必需具备非常高的业务抽象能力和架构设计能力。否则,Palantir出来了很多年,宣传了很多年,也被同行学习研究了很多年,早就应该被模仿、被超越了。事实是,一直被模仿,却从未被超越。这背后的原因到底是什么?

相关推荐
Brduino脑机接口技术答疑42 分钟前
脑机接口数据处理连载(六) 脑机接口频域特征提取实战:傅里叶变换与功率谱分析
人工智能·python·算法·机器学习·数据分析·脑机接口
大转转FE43 分钟前
[特殊字符] 浏览器自动化革命:从 Selenium 到 AI Browser 的 20 年进化史
运维·人工智能·selenium·测试工具·自动化
世岩清上1 小时前
世岩清上:科技向善,让乡村“被看见”更“被理解”
人工智能·ar·乡村振兴·和美乡村
dagouaofei1 小时前
AI 生成开题报告 PPT 会自动提炼重点吗?
人工智能·python·powerpoint
Macbethad1 小时前
工业设备系统管理程序技术方案
大数据·wpf
安达发公司1 小时前
安达发|颜色与产能如何兼得?APS高级排程织就智慧生产网
大数据·人工智能·aps高级排程·aps排程软件·安达发aps
鼎道开发者联盟1 小时前
当界面会思考:AIGUI八要素驱动DingOS实现“感知-生成-进化“闭环
前端·人工智能·ai·gui
OpenLoong 开源社区1 小时前
技术视界 | 当开源机器人走进校园:一场研讨会上的开源教育实践课
人工智能·机器人·开源
PPT百科1 小时前
教师备课效率:PPT家园的一键编辑 vsPPT百科的 AI 生成辅助
人工智能·经验分享·职场和发展·powerpoint·职场·ppt