南京都昌信息科技有限公司 袁永福 2025-9-9
■■ 前言
在AI时代,算力、数据、算法是三大核心基础要素,同时还必须满足合规性。在中国的HIT领域中,要解放AI的生产力,就需要在这些核心要素上做足功夫,否则基础不牢,地动山摇。本文就对上述基础要素进行讨论。
■■ 要素一,算力
对于算力资源,中国在底层硬件上遭遇了卡脖子的问题,目前只能缓慢解决。因此在未来较长的时间内,中国的算力资源总体是短缺的。
为此,2023年12月26号,中国正式启动"全国算力一张网"的建设,由国家发展改革委、国家数据局等部门联合推动,旨在构建全国范围的算力资源协同调度体系。算力一张网能宏观调控,减少重复建设,并在地理上更适配中国电网分布,帮助实现碳中和的目标。
笔者可以想象,未来可能会出现"中国国家算力网公司",调度全国算力;各个IT大厂的数据处理中心则类似一个个发电厂,联网提供计算服务;各个用户接入算力网来消费算力资源并向算力网公司支付费用,而算力网公司则和各个数据中心结算费用。算力网和电力网有很多相似之处。比如电力网有"西电东送",而算力网有"东数西算",目前电网中的潮汐处理、削峰填谷之类的操作也可能会出现在算力网中。
当算力资源成为社会公共服务资源时,大多数医院由于经费有限,无力自购算力服务器,此时可以考虑使用公共的算力资源。但是医疗数据是需要强监管的,在条件允许的情况下可以建设小型算力网。比如卫健委可以牵头建立区域算力中心,通过网络专线连接辖区内的医院,让多家医院共享这个区域算力网,顺带完成互联互通,实现"数据不出域,算力可流动"。
■■ 要素二,数据
中国医院中存在大量的病历数据,这些数据蕴藏着巨大的价值,但长期躺在"数据冷宫"中而不能带来价值。要让这些数据得到充分应用,需要解决三个问题:
第一,数据可以被机器识别。
笔者观察到,一些厂家出于商业利益而对其原始病历文件进行加密,仅仅提供PDF文件对外共享数据。虽然目前的技术手段能从PDF这种二进制文件中提取数据,但效率低下,这种方式不能普及。而此时行业内新应用的国产OFD技术能解决这个问题,OFD的文件格式被设计成能非常方便的被机器阅读识别,并且受到国家卫健委的大力支持。
目前笔者观察到,有些医院实现了"病历文档→PDF→OFD",这不是最优实现路径,因为"病历文档→PDF"的过程中已经让大量的信息永久丢失,此时"PDF→OFD"过程中被迫需要补录大量的信息,这增加了系统复杂度。如果病历编辑器能直接生成OFD文件,没有"中间商层层转包",就不会有这些麻烦了。
第二,敏感数据。
医疗数据中包含了大量的敏感数据,这导致病历数据无法离开医院内网,为此医院不得不花钱自建算力服务器。而特别设计的OFD文件是支持自动脱敏的。脱敏可以降低网络安全事故造成的损失,当这个损失小于医院使用公共算力网带来的效益时,则可以考虑让病历数据运行在公共算力网中。毕竟医院也是一个社会组织机构,不应有太多的特殊性。
另外,笔者建议新增一个病历书写质控规则,那就是在病历正文中不得出现敏感信息,否则扣分,这能帮助自动脱敏。
为此,我们南京都昌公司的病历编辑器软件新增了"流版一体化"技术,无需依赖任何第三方软件即可生成OFD文件;并通过特定标记,使得OFD文件可以自动脱敏。都昌编辑器已经在全国数万家医院运行使用,估计每天产生数百万页的病历文档。当全面升级后,则能为AI应用源源不断的提供大量优质的原始数据。
第三,结构化数据。
经过和南京图灵研究院AI底层算法专家的深入沟通,笔者认为,尽管AI能识别自然文本,但结构化数据仍然具有明显优势:1.它能显著降低AI的总体拥有成本,并减少幻觉;2.对于医院管理来说,结构化电子病历有利于医疗行为同质化,提高医疗体系综合运行效率;3.在AI能力范围之外,传统软件处理结构化数据更方便。
为此我们特别新推出了《都昌医疗文书工具集》,内置了国家卫健委的数据元标准,帮助医院产生符合行业标准的结构化病历文档,既满足管理和临床要求,又能为AI提供高品质的数据矿石。
■■ 要素三,算法
笔者对AI底层算法了解不多,目前只能等待IT科技大厂和各种独角兽传出好消息。
■■ 合规性
合规性在AI应用有一票否决权,是一根不可触碰的高压线。另外国家卫健委要求居民健康档案要向个人开放共享。为此笔者构思了一种应用架构,在居民健康档案共享平台的基础上二次共享给AI,用于降低合规性的难度。以下是实现步骤:
第一步,卫健委把居民健康档案分享平台做扎实。医院的各种医疗服务记录尽可能多的汇总到平台中。另外要统一平台中的文件格式,将PDF转换为OFD格式,并且加上自动脱敏的功能。
第二步,在平台上添加面向AI的数据接口,让AI可以读取平台中的各种数据,数据出平台必须自动脱敏。
第三步,AI数据接口上添加授权控制。让自然人或者监护人可以自行对AI进行读取授权控制。AI读取数据时发送告知消息给个人。
第四步,AI厂家可以进行金融补贴(现金或医药费补贴)刺激自然人共享其个人数据。当大量的自然人共享其个人数据时,AI厂家就能获得足量多的数据来支持其业务发展。
在这种模式下,各方诉求都得到兼顾:
- 对于平台,将很大一部分责任和风险转嫁给个人,合规难度降低。
- 对于个人,可以零售自己的私人数据获利,这是自己的个人民事行为,也比较容易合规。
- 对于AI厂家,终于有一种合规花钱购买真实数据的方式,可以满足"数据饥渴"。而且可以根据所需病种、地区等精确过滤条件,只获取最小数据集,也有利于数据安全。数据价格是由AI厂家和大量的个体之间的博弈动态设置,能自我调节,更符合市场经济规律。
- 对于医院或医生,也可以参与利益分成,这也能刺激其改善上传数据的质量。
- 对于卫健委,以前只有卫健委一方在劳心劳力的建设这个平台。经过笔者设计,个人、医院、AI厂家等都有动力来参与建设这个平台,形成各方合力。商业模式上也能闭环,形成滚动发展。
- 对于数据资产,医院想要把病历数据打包成数据资产对外销售时,理论上可能需要挨个获得患者个人的签名授权,而且医院获利后应当精准回馈患者个人,这使得操作很复杂,难于普及。而这种由患者个人主导零售数据,各方分成的模式,操作简单,便于普及,创造了一种新的数据资产的商业模式。
总之,笔者构思的这种应用架构,实现了权益共享,风险平摊,过程透明,定价合理。为大范围合规数据共享利用提供了一个新的选项。
■■ 小结
算力、数据、算法这三个基本要素加上合规性,这构成了整个医疗AI生态体系的根基。只有把这些根基做扎实,才能更好的解放医疗AI的生产力,使其更好的帮助中国医疗行业的价值最大化。