基于语音识别的智能电子病历(一)

引子

A:"上周开年会了!"

俺:"有啥新的动向?"

A:"今年计划开发基于语音识别的智能电子病历。老板说这个算是国内首创!"

俺:"嗯,俺做这个20多年了。"

A:"语言识别 加 AI 的电子病历!"

俺:"明白,俺都做了20多年了,这个的弯弯绕绕、潮起潮落俺都门清。给你说说?"

起初

说起基于语音识别的智能电子病历来,就不得不说一个医疗的小行业"医疗转录 "。医疗转录,是指根据医生的口述录音,利用文字处理软件程序对记录医疗过程的档案文件进行信息转录。医疗转录是一个准确并迅速转录口述的医疗报告等资料的过程,包括对历史记录、体检报告、临床诊断、办公笔记、手术报告、会诊记录、出院小结、信件、精神性评估、实验报告、X光报告和病理报告等资料的转录。我们来分析一下医疗转录服务 ,数据源头来自医生的语音,最终的结果是电子病历的内容,这不就是基于语音识别的智能电子病历的一个业务实现吗?

医疗转录是如何形成一个小行业的?

这个要从美国的医生开始说起。美国医生的地位非常高,成为一个外科医生,大学最短也要读11年,拿到博士学位,之后还有再读几年医科。俺刚参加工作时,有一次在文字中称呼医生为Doctor,同事指出了俺的错误,应该称呼对方为M.D.(Medicinae Doctor) ,称呼对方为Doctor,是一种不尊重。那么,让一个读了11年大学,学费都超过70万美元的外科医生,一个字母一个字母的录入电子病历,是一件很浪费的事情。于是,有了精细化的分工 ,医疗转录服务 来了**。** 最初的时候医生是通过录音磁带或者电话,把语音发给医疗转录服务公司。然后这些公司就根据这些语音生成电子病历的内容。

时间来到了1996年,俺当初工作过那就公司诞生了。这是一家提供医疗转录服务 的公司。2017年拿过全美医疗转录质量评比的第一名。拿过NIST的4次认证。2019年被M*Modal 收购。

时间到了2000-07-15,俺入职了。

概述

系统构成

如果说基于语音识别的智能电子病历 是一种思路,那么医疗转录服务就是这个思路的具体实现。我我们先从语音说起,在实际的业务中,一般分2两种业务模式。

  • 整体录音(下图的Full Dictation部分),这种方式每个语音文件包含一个或者多个报告,时长也比较长,3到8分钟长的语音比较多。最终产生的也是一个或者多个医疗报告
  • 局部录音(下图的Partial Dictation部分),这种方式一般是和结构化的电子病历一起使用。语音的内容是电子病历中的一段或者一部分。

医生是如何使用的呢?

整体录音(Full Dictation),通常有有些几种方式接入

  • 医院或者医生通过接口或者网站上传语音文件
  • 医生使用电话进行录音,医生拨打电话进行录音。有T1线路+语音卡,也有网络电话的接入。
  • 医生使用手机APP进行录音。例如这个是2009年发布IOS的APP,android下的APP的界面类似。

  • 医生在电脑上访问网站或者使用应用软件进行录音。

局部录音(Partial Dictation),一般是和结构化电子病历或者HIS 做对接。

病人的相关数据也需要和医院对接。这个我们自己开发了一个平台用于和医院对接数据。

上面说的2部分,在下面的图上就是最左边的 Input 和 Dictation

数据的来源处理好后,就进入了WMS(Workflow Management System)部分。这部分是核心,包含的东西特别多。从功能上来说有这么几部分:

  • 医疗行业的特定人群的语音识别
  • 富文本报告编辑器
  • 结构化电子病历(CDA)编辑器
  • 和编辑器互联并支持3键脚踏板的语音播放器
  • 医疗行业的语义分析
  • 整合医疗数据的输入法
  • 语音识别的自动再训练
  • 语义分析的自动再训练
  • 基于医疗知识的拼写检查和内容检查
  • 多级质检系统
  • 报告系统

每个部分其实都有很多可以讲的东西,以后再说。

生成好的报告或者电子病历,有时还要进行电子签名 。电子签名的技术简单,就是业务复杂。电子签名一般 Dictator 、Attend 、Ordering 、Referring 、PCP、 DictatorFor 等多个角色 。每个角色都有可能有替代医生。签名规则也比较多 。有些医院的某些报告需要多个角色的合签。有的合签还规定了不同的角色签名的前后顺序。之前做过一次梳理,业务上 240多种不同的业务分支。

最后一步就是把数据送回医院,除了和医院的系统对接之外(每个医院都有不同的接口方式)。还有其他Email 、传真、打印、发布到APP 等方式。传真在国内用的不多,但是在美国还是有很多地方在用。

运营模式

实施一般不收费,公司是根据服务量收费,古早的时候 一般每行是6-8美分。有些复杂的甚至能谈到1毛。现在随着语音识别和AI的运用,价格已经降低了到了4-6美分。这个还分本土服务和国际服务。

  • 本土服务:数据不流出美国本土 。价格会贵1-2分。
  • 国际服务:报告在印度、菲律宾等国家完成。价格便宜。

语音识别和人工智能在这个行业能够很早使用,也是和这种运营模式分不开的。每个公司千方百计的提高工作效率。在同样的工作时长,完成的报告行数越多,报告的质量越好,公司越有竞争力。因为安装一般不收钱,报价比其他公司少1分钱,就可以抢走其他公司的客户。

行业发展

2000年之后 Nuance (已被微软用197亿美元)是第一个大规模使用语音识别的公司。Nuance最早的识别引擎是基于隐含马尔科夫链。对于特定人群来说,基于隐含马尔科夫链还是不错的。因为是为每个医生训练模型,隐马的效果还是不错的。这个版本的内部代号是Dragon,在帮助文件的后半部分都是程序员的照片和聚会照片,是个很特别的帮助。

2010年之后M*Modal (其开发团队被3M用8亿美元收购,2亿现金加6亿股份)开始快速发展,很快成为行业第2。M*Modal的优势主要有以下2点:

  • 结构化电子CDA编辑器和CDA发布
  • 识别的再训练

2020之后出现了一家新的公司Soniox 。这家公司的语义分析不错,特别是对于新报告的处理。

上面说的 M*Modal、 Nuance、Soniox ,我们都长期合作过。另外我们自己也有一个引擎,而且可以兼容 M*Modal、 Nuance的数据格式。能够平滑替代M*Modal和Nuance的服务。目前我们每个月会处理400万分钟的医生的录音。

相关推荐
东风西巷41 分钟前
Balabolka:免费高效的文字转语音软件
前端·人工智能·学习·语音识别·软件需求
非门由也1 小时前
《sklearn机器学习——管道和复合估计器》联合特征(FeatureUnion)
人工智能·机器学习·sklearn
l12345sy1 小时前
Day21_【机器学习—决策树(1)—信息增益、信息增益率、基尼系数】
人工智能·决策树·机器学习·信息增益·信息增益率·基尼指数
非门由也1 小时前
《sklearn机器学习——管道和复合估算器》异构数据的列转换器
人工智能·机器学习·sklearn
计算机毕业设计指导1 小时前
基于ResNet50的智能垃圾分类系统
人工智能·分类·数据挖掘
飞哥数智坊1 小时前
终端里用 Claude Code 太难受?我把它接进 TRAE,真香!
人工智能·claude·trae
小王爱学人工智能2 小时前
OpenCV的阈值处理
人工智能·opencv·计算机视觉
新智元2 小时前
刚刚,光刻机巨头 ASML 杀入 AI!豪掷 15 亿押注「欧版 OpenAI」,成最大股东
人工智能·openai
机器之心2 小时前
全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
人工智能·openai
新智元2 小时前
2025年了,AI还看不懂时钟!90%人都能答对,顶尖AI全军覆没
人工智能·openai