数据质量不过关，AI决策是空转

本文来自 爱分析 ifenxi（北京 爱分析 科技有限公司），AI市场的研究咨询机构，专注于人工智能、大模型、智能体与算力等产业研究。

AI 正在改变企业使用数据的方式。

过去企业数据建设的目标，是实现业务流程线上化，并把分散的数据治理成可管理的资产。AI时代，企业更关心的是数据能否直接参与判断、预测和决策，从"人看报表"走向"系统主动决策"。这意味着，企业数字化正在从流程数字化、数据资产化，进一步走向可信决策自动化。

在此背景下，爱分析对百望股份CTO王志伟 进行了深度访谈。百望股份长期深耕发票、财税、企业信用和交易数据服务领域，积累了大规模真实交易与企业经营数据，以此为根基，百望股份提出战略升级：将公司定位为AI时代的企业商业信用基础设施运营商：以真实交易数据定义企业商业信用，让企业更可信、交易更智能、融资更容易、出海更合规。

本次访谈重点讨论了AI时代数据底座演进方向、行业模型机会、AI应用规模化落地条件，以及百望股份如何用统一数据中台和统一AI中台支撑战略落地等问题。

核心观点：

1、 AI不会直接替代数据平台，统一数据底座仍是AI的基础。 大模型可以大幅提升数据治理、打标、建模等环节效率，但没有高质量数据供给，AI能力很难真正进入企业关键决策。

2、通用大模型不会吞噬所有 行业 模型， 真实交易 数据和强合规 Know-How会 长期 形成壁垒 。财税、医疗、金融、企业信用等领域专属数据不可能简单进入公开大模型，业务规则、授权链路、审计要求和风险责任也难以由通用模型独立承担。

3、 AI 应用规模化的关键是 把专属 数据、 行业 Know-how 和刚需 场景组织成可计量的能力调用。 财税合规、企业商业信用、金融风控、智采慧销与全球税务合规等场景，既有高频业务入口，也有明确付费意愿，是AI可规模化落地的应用。

以下为本次访谈实录，在不改变原意基础上略有修改。

01 企业数据正从资产化走向 可信决策自动化

问 ：百望股份为什么选在此刻进行战略升级？

王志伟：这个问题， 可以从外部和内部两方面看。

外部来看，整个行业已经走到新的阶段。企业数据建设大致经历三个阶段：数据可用、数据资产化、数据智能化。 现在AI出现之后，这个过程明显加速了，而且正在从一般意义上的"智能化"，进一步走向"可信决策自动化"。

首先是数据可用。过去企业通过ERP、CRM、SaaS等系统，把很多线下流程搬到了线上。先不说数据治理做得怎么样，但至少数据已经沉淀下来了。

第二是数据资产化。通过统一标准、打通数据孤岛、做数据治理，企业开始把数据从成本中心变成资产中心。我认为，现在很多企业其实都处在这个阶段。

最后是数据智能化和可信决策自动化。这个阶段的核心变化，是从被动查询走向主动判断。过去要判断一家企业好不好，需要人去查询、汇总和分析；智能化阶段，系统可以基于实时或准实时数据，预测哪些企业可能违约、哪些交易存在异常、哪些客户值得合作，并把判断嵌入授信、采购、销售、合规等业务动作。这本质上就是从被动变为主动。

从内部看，百望股份最早以发票和财税业务为主，积累的是企业真实经营中的事实类数据。发票、交易凭证、税务申报、商品和产业链关系，天然能够反映企业经营状态、上下游连接、交易活跃度和风险变化。此次战略升级的本质，就是把这些真实交易凭证进一步组织起来，从票税合规入口升级为企业商业信用基础设施。

在这件事上，我们既有意愿，也有能力。意愿是，百望股份要从"数据+智能"的方向继续向前，围绕真实交易数据定义企业商业信用；能力是，我们的数据覆盖千行百业，量级足够大，随着AI模型能力提升、规模成本下降，可信决策自动化变得更可行。

问 ：从数据资产化走向 可信决策自动化 ，会面临哪些挑战？

王志伟：核心挑战有三个：高质量数据、数据里的行业知识，以及工程化能力。

首先是数据。高质量数据依然是稀缺的。很多企业完成了数据沉淀，但有数据不等于有高质量数据。我们要训练企业相关的表征，比如商业信用、经营活跃度、风险趋势、产业链位置等，就需要大量高质量数据。这个数据要实时或者准实时，才能跟上企业的最新状态。同时还要覆盖得足够立体，既看企业主体，也看商品、交易关系、关联网络和金融反馈。

百望股份在这方面有一定优势。百望平台上沉淀约 1188万亿元累计真实交易额，覆盖 107 条产业链、约 1.5 亿个商品 SKU 和约 9070 万家关联企业，并与 200 余家金融机构形成合作，这些共同构成了刻画企业的高质量数据集。需要特别强调的是，我们不会把原始交易明细简单暴露出来，而是在合法合规、授权使用的前提下，把真实交易关系转化为评分、标签、趋势、分位、风险等级和证据线索。从而既能满足客户判断需求，也能保护企业数据边界。

第二是行业知识沉淀，也就是怎么把对行业的理解沉淀下来。大模型本身缺乏对特定行业业务逻辑和规则的理解，解决不了企业里的很多实际问题。比如财税领域，我们积累了3万多条业务规则，这些业务规则来自专家库、客户场景和行业专有数据，不会出现在公开语料里。

第三是工程化能力。从模型训练到应用规模化落地，中间有大量工作。数据治理做到80%和做到10%，一开始可能看不出特别大区别，但对长期效果影响非常大。那百望股份的做法，是在前端应用的背后搭建一套统一的底座，在这个底座上，我们有着统一数据中台、统一AI中台、统一权限和统一商业化运营平台，我们所有的合规科技、信用科技、金融科技、Tax-Swift以及MCP/Skill能力都会在这套底座上生长、迭代。

问 ：当前模型能力还在持续迭代，百望股份当前做的数据智能工作，会不会很快因模型能力提升而不适配？

王志伟： 我们自己正在感受到模型能力提升带来的变化。去年我们还用Dify这类工具搭固定工作流，今年很多编程和应用编排工具已经更灵活、更轻量，直接用自然语言描述需求，就能生成代码或工作流。

但有些工作并不会变，每一层要解决的问题依旧存在。比如高质量数据集，不管用什么方法，目标都是达到足够好的数据质量。再比如模型层，不管未来是自动生成模型，还是经过微调、预打标、人工干预训练，最终还是要得到一个有行业Know-how、能解释、可审计的小模型或能力模块。

数据平台也是一样。我觉得在某些环节、某些技术能力上，AI确实会大幅提效，但AI不是数据平台的直接替代，而是数据平台的赋能。反过来，数据平台其实是AI的基础，没有基于数据平台构筑的高质量数据供给，AI也不会做得特别好。

以数据治理里的打标为例，最早是手工打标，后来用大模型打标，现在是用垂类小模型打标，成本是指数级下降。我们曾完成近8000亿量级的数据标注工作，对比通用大模型标注方案，改用垂类小模型做标注，成本下降了90%以上，降本成效突出，这就是 AI落地带来的标注提效价值。

所以AI不是把某一层直接替代掉，而是让每一层完成职责的成本大幅下降。那在百望股份的商业模式里：底层是真实交易底账，中间是企业商业信用，上层是 AI 决策基础设施，再往外是产品化和商业化变现。实现方式会变化，但分层本身在中短期内会持续存在。

02 通用大模型再强，也不可能吞噬所有行业小模型

问 ：通用大模型越来越强，行业小模型还有长期存在的必要吗？

王志伟： 我认为很多行业小模型会消失，但有一些行业小模型仍然会存在。关键还是看数据，尤其是专属私有数据，以及这些数据背后的行业理解和合规约束。

如果没有专属私有语料支撑，很多小模型很难长期存在。比如财税、医疗、金融等强监管、强合规门槛的领域，训练语料不会被拿出来作为公开数据输入到通用大模型里。这些领域对质量要求非常高。如果模型出现一次幻觉，可能就直接流失一个客户，甚至带来更严重的合规风险。所以，如果一个领域既有高质量专业语料，又有强监管和合规门槛，行业小模型就有机会。

以百望股份的企业商业信用能力为例，市场上公开的工商、司法、舆情数据可以支撑一部分查询需求，但企业真实经营行为、商品流向、上下游结构、发票稳定性、交易连续性和金融反馈，才是动态信用判断中更难被公开信息替代的一层。

问 ：行业Know - how本身，会不会也被通用大模型吸收掉？

王志伟： 要看Know-how以什么形式存在。比如医生的诊疗数据也是行业Know-how，但它在国家强监管下，不会轻易进入公开模型，这就可能支撑一个行业小模型。如果某个行业的知识在网上都能搜到，而且没有专属数据支撑，那我觉得它支撑不了一个长期存在的行业模型。

那财税和企业信用领域的 Know-how 很多不是文字知识，而是规则、授权、场景、指标体系和工程流程。比如什么数据可以在什么授权下调用，什么风险可以用标签表达，什么判断必须保留证据线索，什么评分需要能下钻到原始凭证或产业链信号。这些内容不只是"懂不懂税法"或"懂不懂企业信息"，而是能不能在真实生产系统里安全调用。

03 AI时代，数据底座不会被模型替代

问 ：面向AI的数据底座，未来更像传统大数据平台，还是更像数据编织这类逻辑数据平台？

王志伟： 我个人认为这两种形态会并存 。

结合百望股份的数据来看，发票和交易凭证数据量级很大，也是我们的核心资产，这部分肯定会用传统数据仓库建设方式。同时，为了丰富数据维度，让判断更准确，我们会接入公开数据、产业链数据、商品数据、金融与风险反馈等多源数据，这里面就会有类似DataFabric数据编织的设计。

关键是这两种形态之上要有一层抽象层，行业里一般叫数据虚拟化。通过数据虚拟化，把百望股份自有的一方数据和三方数据汇聚成逻辑上看起来是一套数据库仓，对上层模型层、Agent层、应用层统一提供服务。

这也是我作为CTO最着力打造的一层：统一数据中台不仅要解决数据能不能取到，还要解决企业主数据、票据数据、商品数据、交易数据、产业链与供应链关系数据、信用标签、风险模型和权限体系是否口径一致。只有统一数据底座建立起来，合规科技沉淀的交易事实才能被信用科技加工为信用资产，被金融科技用于风控与授信，被全球化业务用于跨境合规，被 AI Agent 安全调用。

问 ：抽象出来的数据虚拟化层，未来有没有可能变成一个通用小模型？

王志伟： 我觉得很难通用。技术架构可能通用，但里面的行业Know-how、Skills很难直接复用。不管用RAG还是新的方式，都要挂领域知识，才能丰富这个小模型。

尤其是在做数据编织时，每一类数据、每一个数商的数据安全要求差异都非常大。这就导致你做数据编织和数据触达时，受到的约束完全不同。

如果要做一个小模型，它必须知道这个数据是什么数据，调用时需要满足怎样的合规授权，场景侧授权又是什么样子，输出能不能直接给客户看，还是只能用评分、标签、趋势、分位和风险等级表达。这一套逻辑都要灌进去，模型才能真正用得安全。

但这一层我觉得极难标准化，也很难通过大量训练完成。因为语料本身不足以支撑训练出一个通用模型，它太碎片化、不集中。哪怕一家公司接了上千个、数千个数据源，放到模型训练的量级上看，也远远不够。

问 ：这两年本体建模很火，您觉得本体建模真正落地时，最大的难点是什么？

王志伟：最大的难点就是落地。 它作为一种思考问题的方式是好的，以各种本体为内核，逐渐往外延伸，但在实践中会受到很多制约。

第一个是数据制约。任何一家企业在刻画一个对象时，掌握的数据都是有限的。你想把一家企业方方面面都刻画出来，数据不一定够。

第二个是算力和成本。你要计算成千上万家企业，每个企业又有大量关系和特征，在工业生产里通常需要预计算，这会消耗大量算力。成本和收益不一定完全成正比。

第三个是关联影响。我们做企业知识图谱时会发现，一个本体发生变化，可能会影响周边节点，周边节点变化又产生涟漪，继续影响其他节点，这种统计相关性非常复杂。

所以我觉得本体建模有价值，但不是讲起来那么轻松。真正从小试点扩到生产系统、扩到更大范围，挑战会非常明显。百望股份的实践可能更贴近业务落地的建模思路：我们以"三纬五经"构建数据底层框架，从企业、商品、个人三个观察维度，以及交易、制度、雇员、金融、商品五类关系网络刻画企业。它的难点不在概念，而在数据、规则、证据链、算力和产品化表达能否同时跑通。

04 AI应用规模化，依赖于专属数据、行业Know - how和付费意愿

问 ：百望股份未来对外提供服务，会更偏应用和智能体，而不是输出整套技术架构吗？

王志伟： 对，我们还是会做技术业务层的应用，做智能体应用，甚至有一些垂类模型或能力模块会以Token、API、MCP、Skill等方式对外提供服务。未来我们会更强调AI属性，但这个AI不是单纯问答，而是能进入客户业务流程的能力。

我们不会直接售卖整套技术架构，而是把基于这套架构产生的能力产品化、服务化。客户真正需要的，还是能解决业务问题的能力。比如票据核验、智能赋码、税务风险识别、企业信用评分、产业链图谱、融资匹配、商机发现、全球税务合规，这些能力可以在百望股份自己的产品里使用，也可以通过 API、MCP 或 Agent 嵌入 ERP、银行风控、电商经营、企业办公和 AI 工作流。

问 ：从现在看，哪些AI场景最容易规模化？

王志伟：大概有四个方向。

第一个是 财税合规科技 。财税合规科技有几个特点。首先需求刚性很强，金税四期之后，企业财税合规压力明显变大，被稽查的风险也更高，企业一不小心就可能出现问题。其次，这个领域相对标准化，税法、税则有一部分是公开的，很多内容可以借助大模型去做，我们再在上面做蒸馏、做专属能力。第三，我们有私有数据和业务规则积累，这些可以用于精调、微调，形成壁垒。这个产品现在已经在不少百望股份的客户那里实现商业化了。

第二个是 商业信用和 金融科技。百望股份有大量真实交易数据，发票里蕴含的交易信息，可以构建动态商业信用的数据基础。基于这些能力，我们可以为银行提供增信、提额、贷前、贷后等场景下的模型服务，也可以把银行授信结果、用信、还款、贷后风险信用反哺信用模型，让评分不只是静态报告，而是有金融验证闭环的动态评分。现在百望股份已经和很多股份制银行，以及一些区域头部银行形成合作。

第三个是智采慧销和客户增长。 比如我们知道哪些企业经营得好，哪些人可能采购某类商品，哪些供应商更稳定，哪些产业链环节存在机会，就有了圈选客户、匹配供应商、查价格、查竞品、查商机的能力基础。每个企业都关注增长，这个客户群体足够大，我们的模型能力也刚好能匹配一部分需求。

第四个是全球税务合规。越来越多中国企业出海，会面对海外电子发票、VAT/GST、本地申报、跨境交易凭证管理和交易伙伴合规筛查等问题。Tax-Swift 本质上是把百望股份在中国市场形成的票税和合规规则能力延展到全球经营场景。

问 ：也就是说，能规模化的AI场景，还是要建立在数据和Know - how积累之上？

王志伟： 对，对我们来说，财税合规、企业商业信用、金融风控、智采慧销、全球合规，都是我们有数据、有行业理解、有客户需求的地方。不是说任何炫的AI场景都容易商业化。真正能规模化的，往往还是要看有没有底层数据、有没有业务规则、有没有合规授权链路、有没有客户愿意付费的痛点。

这也是百望股份商业模式的核心价值：合规科技带来高频入口，高频入口沉淀真实交易数据，信用科技把数据变成资产，金融科技把信用变成收入，Tax-Swift 复制到全球合规场景，API/MCP/Agent 再把能力嵌入生态。每一步既是输入也是输出，飞轮运转越快，数据、模型、客户和场景之间的反馈越强。

问 ：百望股份的商业模式未来会发生哪些变化？

王志伟：肯定会从原来的License 、 项目和 订阅模式，逐步走向按 数据、API、 大模型 + Token 的方式进行 计费， 但这不是简单换一种收费单位 。 可以提前透露一下，百望也将发布某一领域的专属模型，并将以token计费的方式，为客户提供服务，快速为商业服务。

我们的Token或能力调用会限定在专业问题的回答和业务调用上，定价跟商业价值相关。如果我们回答的是高价值商业问题，比如风控、授信、交易伙伴筛查、采购建议、销售商机、跨境合规判断等，价格就不应该只按通用回答理解。不同场景背后的商业价值不一样，单价和计费方式也会不同。

问 ：作为公司CTO，您怎么看待AI赋能研发这件事，大量代码交给AI之后，会不会失控？人和AI之间怎么平衡？

王志伟： 这个问题特别好。这也是很多技术人员都会有的矛盾心态。一方面希望大量使用AI生成代码，另一方面又担心万一出问题怎么办。因为代码本来就是AI生成的，人可能根本控制不了细节，这个风险怎么平衡，是一个现实问题。

先说大的趋势，AI生成、AI修改、AI运营，已经是无法扭转的趋势，所以眼下还是要积极拥抱，只是风险管理也要跟上。

具体怎么拥抱，我觉得会分阶段。

第一个阶段是AI辅助人来编码，比如通过灵码这类插件，在IDE里帮助工程师写代码。

第二个阶段是人辅助AI来编码，像Codex、Claude Code这类工具，直接让它生成系统。

再往后，会延伸到其他工种，覆盖前端、测试，甚至部分产品原型图，逐渐扩大范围。

这种情况下，就要尽量用AI的方式保证测试、做全量回归、做验证。某种意义上，只能用AI来对抗AI带来的风险。

所以人和AI的关系，不是简单地说人完全放手，或者人完全控制。趋势上AI会做越来越多，但人要把规则、测试、生产安全、应急体系建起来。尤其是关键系统，最后不是靠人工逐行看完所有代码，而是靠一整套工程体系去兜住风险。

这和百望股份一直以来的技术治理逻辑是一致的。无论是研发中的 AI，还是面向客户的 AI Agent，都必须建立在可授权、可解释、可审计、可持续的体系上。AI 可以提升效率，但真正让 AI 进入企业关键流程的，是数据底座、业务规则、工程体系和风险治理。