基于语音识别的智能电子病历（一）

引子

A："上周开年会了！"

俺："有啥新的动向？"

A："今年计划开发基于语音识别的智能电子病历。老板说这个算是国内首创！"

俺："嗯，俺做这个20多年了。"

A："语言识别加 AI 的电子病历！"

俺："明白，俺都做了20多年了，这个的弯弯绕绕、潮起潮落俺都门清。给你说说？"

起初

说起基于语音识别的智能电子病历来，就不得不说一个医疗的小行业"医疗转录 "。医疗转录，是指根据医生的口述录音，利用文字处理软件程序对记录医疗过程的档案文件进行信息转录。医疗转录是一个准确并迅速转录口述的医疗报告等资料的过程，包括对历史记录、体检报告、临床诊断、办公笔记、手术报告、会诊记录、出院小结、信件、精神性评估、实验报告、X光报告和病理报告等资料的转录。我们来分析一下医疗转录服务 ，数据源头来自医生的语音，最终的结果是电子病历的内容，这不就是基于语音识别的智能电子病历的一个业务实现吗?

医疗转录是如何形成一个小行业的？

这个要从美国的医生开始说起。美国医生的地位非常高，成为一个外科医生，大学最短也要读11年，拿到博士学位，之后还有再读几年医科。俺刚参加工作时，有一次在文字中称呼医生为Doctor，同事指出了俺的错误，应该称呼对方为M.D.(Medicinae Doctor) ，称呼对方为Doctor，是一种不尊重。那么，让一个读了11年大学，学费都超过70万美元的外科医生，一个字母一个字母的录入电子病历，是一件很浪费的事情。于是，有了精细化的分工，医疗转录服务 来了**。** 最初的时候医生是通过录音磁带或者电话，把语音发给医疗转录服务公司。然后这些公司就根据这些语音生成电子病历的内容。

时间来到了1996年，俺当初工作过那就公司诞生了。这是一家提供医疗转录服务 的公司。2017年拿过全美医疗转录质量评比的第一名。拿过NIST的4次认证。2019年被M*Modal 收购。

时间到了2000-07-15，俺入职了。

概述

系统构成

如果说基于语音识别的智能电子病历 是一种思路，那么医疗转录服务就是这个思路的具体实现。我我们先从语音说起，在实际的业务中，一般分2两种业务模式。

整体录音（下图的Full Dictation部分），这种方式每个语音文件包含一个或者多个报告，时长也比较长，3到8分钟长的语音比较多。最终产生的也是一个或者多个医疗报告
局部录音（下图的Partial Dictation部分），这种方式一般是和结构化的电子病历一起使用。语音的内容是电子病历中的一段或者一部分。

医生是如何使用的呢？

整体录音（Full Dictation），通常有有些几种方式接入

医院或者医生通过接口或者网站上传语音文件
医生使用电话进行录音，医生拨打电话进行录音。有T1线路+语音卡，也有网络电话的接入。
医生使用手机APP进行录音。例如这个是2009年发布IOS的APP，android下的APP的界面类似。

医生在电脑上访问网站或者使用应用软件进行录音。

局部录音（Partial Dictation），一般是和结构化电子病历或者HIS 做对接。

病人的相关数据也需要和医院对接。这个我们自己开发了一个平台用于和医院对接数据。

上面说的2部分，在下面的图上就是最左边的 Input 和 Dictation

数据的来源处理好后，就进入了WMS（Workflow Management System）部分。这部分是核心，包含的东西特别多。从功能上来说有这么几部分：

医疗行业的特定人群的语音识别
富文本报告编辑器
结构化电子病历（CDA）编辑器
和编辑器互联并支持3键脚踏板的语音播放器
医疗行业的语义分析
整合医疗数据的输入法
语音识别的自动再训练
语义分析的自动再训练
基于医疗知识的拼写检查和内容检查
多级质检系统
报告系统

每个部分其实都有很多可以讲的东西，以后再说。

生成好的报告或者电子病历，有时还要进行电子签名 。电子签名的技术简单，就是业务复杂。电子签名一般 Dictator 、Attend 、Ordering 、Referring 、PCP、 DictatorFor 等多个角色。每个角色都有可能有替代医生。签名规则也比较多。有些医院的某些报告需要多个角色的合签。有的合签还规定了不同的角色签名的前后顺序。之前做过一次梳理，业务上 240多种不同的业务分支。

最后一步就是把数据送回医院，除了和医院的系统对接之外（每个医院都有不同的接口方式）。还有其他Email 、传真、打印、发布到APP 等方式。传真在国内用的不多，但是在美国还是有很多地方在用。

运营模式

实施一般不收费，公司是根据服务量收费，古早的时候一般每行是6-8美分。有些复杂的甚至能谈到1毛。现在随着语音识别和AI的运用，价格已经降低了到了4-6美分。这个还分本土服务和国际服务。

本土服务：数据不流出美国本土。价格会贵1-2分。
国际服务：报告在印度、菲律宾等国家完成。价格便宜。

语音识别和人工智能在这个行业能够很早使用，也是和这种运营模式分不开的。每个公司千方百计的提高工作效率。在同样的工作时长，完成的报告行数越多，报告的质量越好，公司越有竞争力。因为安装一般不收钱，报价比其他公司少1分钱，就可以抢走其他公司的客户。

行业发展

2000年之后 Nuance （已被微软用197亿美元）是第一个大规模使用语音识别的公司。Nuance最早的识别引擎是基于隐含马尔科夫链。对于特定人群来说，基于隐含马尔科夫链还是不错的。因为是为每个医生训练模型，隐马的效果还是不错的。这个版本的内部代号是Dragon，在帮助文件的后半部分都是程序员的照片和聚会照片，是个很特别的帮助。

2010年之后M*Modal （其开发团队被3M用8亿美元收购，2亿现金加6亿股份）开始快速发展，很快成为行业第2。M*Modal的优势主要有以下2点：

结构化电子CDA编辑器和CDA发布
识别的再训练

2020之后出现了一家新的公司Soniox 。这家公司的语义分析不错，特别是对于新报告的处理。

上面说的 M*Modal、 Nuance、Soniox ，我们都长期合作过。另外我们自己也有一个引擎，而且可以兼容 M*Modal、 Nuance的数据格式。能够平滑替代M*Modal和Nuance的服务。目前我们每个月会处理400万分钟的医生的录音。