模型很重要,但大家搞错了重点
在传统工程系统设计中,信息模型一直占据重要地位。面向对象程序设计、数字孪生、元宇宙、工业4.0------这些概念都建立在信息模型的基础上。OPC UA、工业4.0管理壳(AAS)、I4.0语言、ECL@SS、ETIM......一堆标准,都在规范如何构建信息模型。
什么是模型?
通俗讲,模型(Model)就是对事物的简化描述。由两个关键要素组成:属性 和关系。属性描述事物本身,关系描述它和其他事物的联系。
模型需要形式化语言来描述------数学是一种,XML、JSON也是。
问题在哪?
世界万物,包罗万象,构建数字化模型是一项巨大工程。需要伴随技术发展逐步演进。采纳标准化模型才能协同操作、互联互通。
但国内物模型构建、OPC UA、工业4.0、数字孪生技术的进展不快。主要原因:
-
缺乏像德国行业协会这样的组织推进共识
-
缺乏美国式的模式创新
-
行业过于看大公司脸色行事
-
面对互联网公司的新技术,传统行业视为异端邪说。阻碍了行业创新
这套玩法,在AI时代已经走不通了。
AI带来一股清流
AI的到来,特别是大语言模型的突破,就像一股清流。
MCP(Model Context Protocol)、A2A协议......这些新技术不拘泥于传统标准,直接解决实际问题。美国公司再次引领AI时代,中国互联网公司紧随其后,形成中美双雄逐鹿的格局。
这和互联网发展初期一模一样------创新者不等标准成熟,先把事情做出来再说。
物模型与大语言模型:两条腿走路
AI时代,我们讨论的模型突然变成了两种:
-
物模型:工程设计中的传统信息模型
-
大语言模型:基于海量数据训练的AI模型
它们之间是什么关系?
**建模本质上是人类认识事物的过程:**观察事物 → 思考特征 → 比较差异 → 用语言描述。为了区分,我们把工程中的模型叫"物模型"。
物模型 vs 大语言模型
| 物模型 | 大语言模型 | |
|---|---|---|
| 对象 | 具体的一类事物 | 各种类型的事物 |
| 语言 | 形式化语言(XML、JSON) | 自然语言、图片、视频、语音 |
| 确定性 | 确定 | 不完全确定 |
| 可读性 | 机器可读 | 人类可读 |
| 范围 | 机器操作的领域 | 人类认知的所有领域 |
由此可见,物模型是预先定义的、确定的模型,是大语言模型的一个结构化子集。
类似于形式化语言与自然语言的关系------一个精确但受限,一个灵活但模糊。
Palantir找到了平衡点
Palantir的Ontology完美诠释了这两种模型如何协同工作:
-
底层是物模型:将企业数据、行为、逻辑、安全统一建模为对象、属性和链接
-
上层接入大模型:AI可以用自然语言查询和推理这些结构化模型
-
结果是真正的人机协作:技术人员用代码操作,业务人员用图形界面,AI用自然语言
这就是AI时代的正确姿势------不是二选一,而是两条腿走路。
形式并不重要
这里要强调核心观点:我们不必纠结采纳哪一种信息模型标准。
结构化模型之间的转换非常容易。关键是要有模型!哪怕是自然语言描述,都能借助大语言模型生成结构化模型。
事物的模型本质上就是一个对象(Object)+ 一组属性(Properties)。
使用"简单模型",然后转换成各种专业模型。这更合理,避免一开始就陷入标准细节,而忽略了建模本身。
Palantir的实践证明了这一点:
它不要求企业迁移到某个特定标准。相反,软件"坐在"客户混乱的系统之上,创建一个语义层:
-
ERP系统中的"用户"
-
CRM中的"客户"
-
财务系统中的"账户持有人"
可能是同一个人,格式完全不同。Palantir不重组底层架构,而是在上层建立统一的语义映射。这就像"技术创可贴",特别适合政府机构那些追溯到1960年代的遗留系统。
格式不是问题,语义才是关键。
"赢得胜利"是最大的需求
美国公司和欧洲公司的差异,在模型构建上体现得淋漓尽致。
**欧洲路径:**先制定完美标准,再推广实施,强调规范和秩序。
**美国路径:**先解决问题,后总结标准,强调效果和胜利。
美国公司历来强调"将事情做成",更像军事思维------**"赢得胜利"是最大的需求。**标准化可以滞后,但问题必须先解决。
我们的研究工作也在改变:寻找哪些领域值得构建信息模型。换句话说,在哪些场景下,构建模型能"包赢"?产生巨大社会和经济效益?
实战才是硬道理
一切从实际出发。借助简单的AI工具,普通行业工程师就能快速构建信息模型:
-
ERP、MES系统生成电子表格
-
写个简单Python程序转换数据
-
用大模型直接从文档提取结构
但有一点必不可少:深入一线、与用户并肩战斗的前线工程师队伍。
Palantir的Forward Deployed Engineers(FDSE)模式就是最佳实践:
-
工程师驻扎在客户现场
-
从脏活累活做起
-
根据实战需求快速迭代模型
-
他们甚至说:"未来的士兵是会编程的"
在发展早期,构建信息模型就是脏活累活,只能靠人力实现。那种"做一个平台,让别人免费来做"的方式已经失灵。数据采集、整理是脏活累活,但如果能找到高效完成的方法,这就是护城河。
技术护城河往往并不强大,执行力才是。
更大的格局
我们不应局限于生产系统的信息模型。
真正的数字化应覆盖企业全链条:
-
销售环节:客户、商机、合同
-
研发环节:产品、设计、知识产权
-
生产环节:工艺、设备、质量
-
供应链:供应商、物流、库存
构建供应链、营销领域的数字化可能更有效,因为这些领域的数字化边际收益更高。
从社会层面看,格局可以更大:
-
全社会统一的健康档案
-
跨医院、跨地区的电子病历互通
-
个人全生命周期的教育和职业履历
-
政务服务、社保、税务的模型统一
这些项目能短期见效,具有巨大社会意义。
**Palantir的成功也在于此------**它不是垂直领域方案,而是对整个组织的运作方式进行完整建模,包括数据、逻辑、行为和安全。这就是"数字孪生体"的真正含义。
AI技术大有可为
构建信息模型最大的工作量在哪?
属性的收集、提炼、建模、审核、修改和标准化推广。
传统方式下极其耗时。但大语言模型改变了游戏规则。
构建初始模型
人工方式:
现场工程师深入收集行业数据,将产品数据表、电子表格、PDF、Word文档转换成初始模型。AI完全可以胜任这个任务。
目前可能没有万能工具应付所有场景,但一线工程师可以写简单的Python程序完成数据转换。Palantir博客甚至写道:"未来的士兵是会编程的。"他们能根据战场变化,迅速编写程序分析战况。
大模型蒸馏:
大语言模型基于巨量数据训练,应该包含了许多事物的属性描述。可以通过蒸馏方式提取初始模型,用结构化格式固定下来,然后迭代优化。
持续迭代
在使用过程中持续优化:
-
数据录入时,属性值与模型不匹配?添加新属性
-
某个属性大多数用户不用?删除它
-
按这种算法,让模型逐步优化、迭代
AI让低成本、大规模构建对象模型成为可能:
-
成本从数周降到数小时
-
可同时为成千上万种对象建模
-
AI学习最佳实践,保证质量一致性
-
根据实际使用持续改进
模型化的数据是未来AI的砖瓦
几乎达成共识:目前靠"蛮力出奇迹"的大语言模型已经走到尽头。
大模型几乎用完了所有数据。用这种方式难以开发理解物理世界的物理大模型。
出路在哪?
符号逻辑和神经网络相结合可能是一条路。将大量数据转化成模型化的信息,训练大模型、构建智能体。
为什么Palantir这么火?
可能就是这个原因。
Palantir做的事情本质上是:把混乱的原始数据转化成结构化的、语义明确的模型,然后让AI基于这些模型进行推理和决策。
这不是简单的数据整合,而是:
-
建立统一的语义层:对象、属性、关系清晰定义
-
编码业务逻辑:规则、流程、决策逻辑模型化
-
让AI在模型上工作:而不是在原始数据上挣扎
Goldman Sachs分析师说得很清楚:Ontology是Palantir的"核心技术差异化因素",它"弥合了原始数据与运营决策之间的鸿沟"。
这就是未来:
-
不是更大的语言模型在更多数据上训练
-
而是更好的模型,让AI理解物理世界和业务逻辑
-
模型化的数据是AI的砖瓦,不是原始数据的堆砌
结语:AI时代需要两条腿
物模型和大语言模型,不是替代关系,是互补关系。
-
物模型提供结构和确定性:清晰的对象、属性、关系
-
大语言模型提供灵活性和理解力:自然语言交互、推理、生成
Palantir的成功证明了:在AI时代,把数据转化成模型,让AI基于模型工作,才是正确路径。
不要再纠结标准了。形式不重要,重要的是:
-
快速建模:用最简单的方式把模型建出来
-
实战验证:在一线用起来,快速迭代
-
AI赋能:让大模型帮你完成建模和优化
-
模型驱动:让AI基于结构化模型进行推理
这就是AI时代构建信息模型的新范式:物模型+大语言模型,两条腿走路。